`
jiezhu2007
  • 浏览: 241341 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
Cfa1f850-3fc3-3a36-9cd8-c3415c9610c6
hadoop技术学习
浏览量:141823
Group-logo
大数据产业分析
浏览量:2932
社区版块
存档分类
最新评论

大数据仓库-增量更新

阅读更多

 

2015-12-03 朱洁 hadoop技术学习

现在是国内凌晨3点,为了抵挡睡意,还是写写技术博客。今天和大家讨论下大数据仓库中的更新技术。

当前很多大数据技术,如HDFS最早设定的是数据不更新,只增量叠加。传统数据仓库(Greenplum,treadata,oracle RAC)通常碰到两个问题:

1、更新的throughput不高。主要影响原因有两点,锁的原因,还有更新通常是随机IO,很难充分利用硬盘高吞吐的优势。

2、更新影响查询。更新把IO占住,查询的体验急剧下降。

为了解决这个问题,GoogleMesa系统设计了一个MVCC的数据模型,通过增量更新和合并技术。将离散的更新IO转变成批量IO,平衡了查询和更新的冲突,提高了更新的吞吐量。

 

Mesa设计了一个多版本管理技术来解决更新的问题:

1、使用二维表来管理数据,每个表要制定schma,类似传统数据库。

2、每个字段用KeyValue来管理。Schema就是是key的集合,指向value的集合。

3、每个字段指定一个聚合函数F。(最常见的是SUM

4、数据更新进来的时候,按照MVCC增量更新,并给增量更新指定一个版本号N,和谓词P

 

5、查询进来的时候,自动识别聚合函数,把所有版本的更新按照聚合函数自动计算出来。

 

 

6、多版本如果永远不合并,存储的代价会非常大,而且因为每次查询需要遍历所有版本号,所以版本过多会影响查询,因此定期的合并是自然而然的。

7、Mesa采用两段更新的策略。更新数据按版本号实时写入,每十个版本自动合并,每天又全量合并一遍,合并成一个基础版本。

好了,今天主要就介绍Mesa的数据模型。Mesa的论文中举了一个例子更方便理解,大家去看看吧。

 

 
 

微信扫一扫
关注该公众号

2
3
分享到:
评论

相关推荐

    大数据-算法-数据仓库实视图增量维护策略研究.pdf

    大数据-算法-数据仓库实视图增量维护策略研究.pdf

    阿里巴巴大数据之路——数据技术篇.pdf

    通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和...

    azure-big-data-starter:Azure大数据PaaS服务的样板项目

    2-SqlServer- Azure SQL数据仓库的增量数据库更新 3-DataLakeAnalytics-空 4-DataFactory-空 5机器学习-空 6-StreamAnalytics- WIP。 当前,Stream Analytics对象位于“ 1-资源”中 7-WebApp- SignalR + Google Map...

    Sqoop企业级大数据迁移方案全方位实战视频教程

    数据导入数据仓库Hive 4.基于复杂条件实现数据导入 5.基于订单案例实现Increment增量同步数据 6.基于订单案例实现lastModified增量同步导入数据 7.数据导入原理详解 第三章:Sqoop数据导出实战开发 1.Sqoop...

    证券行业大数据应用.doc

    建立数据仓库来 存放对全体客户、预定义客户群、某个客户的信息和交易数据,并通过对这些数据进行 挖掘和关联分析,实现面向主题的信息抽取。对客户的需求模式和盈利价值进行分类, 找出最有价值和盈利潜力的客户群...

    浅谈数据仓库和大数据.pdf

    统 数据仓库由于是⼀个抽象的概念所以可以简单的理解为不同粒度的数据层,⽐如:数据缓冲层(存放当⽇增量数据)、数据明细层(存放最全的 明细数据)、数据模型层(轻粒度的数据汇总以及模型设计,这个时候需要设计相应...

    大数据之数据清洗课程全套PPT课件 共8个章节.rar

    第1章 大数据概论数据清洗概述、数据标准化、数据仓库.ppt 第2章 数据格式与编码.pptx 第3章 数据清洗ETL基本技术方法.pptx 第4章 常用数据清洗工具及基本操作.pptx 第5章 文本、web、数据库、增量数据抽取.pptx 第6...

    大数据什么是ETL.pdf

    4、增量更新的问题 、增量更新的问题 对于数据量⼤的系统,必须考虑增量抽取。⼀般情况下,业务系统会记录业务发⽣的时间,我们可以⽤来做增量的标志,每次抽取之前⾸先判 断 ODS 中记录最⼤的时间,然后根据这个...

    大数据项目流程.pdf

    可以考虑建⽴编码管理,元数据仓库。 6)具备操作控制流管理、数据抽取、数据清洗、数据对⽐的功能,⽅便追踪溯源。 第⼆、项⽬难点与应对 1)业务系统众多,数据源⽐较复杂,有sqlserver,mysql,essbase,oracle,sql...

    2021数据仓库服务常见问题汇总-华为-51页.pdf

    5.2 OBS 外表导入数据时如果OBS 数据有更新如何做增量更新导入? 5.3 数据如何存储到数据仓库服务? 5.4 数据仓库可以存储多少业务数据? 5.5 是否支持使用COPY 命令直接将本地数据导入GaussDB(DWS) 集群? 5.6 云上...

    XX能源云数据平台建设项目_投标书_技术部分_V1.0.doc

    通过大数据技术平台产品和技术服务,开展大数据平台建设。逐步实现由SAP BW单一数据分析环境,向以分布式数据库为支撑的大数据平台数据架构演进。主要方案内容包括: (一)大数据分析平台: 数据采集:  支持从...

    大数据云计算技术 暴风集团基于hadoop的数据平台总体架构简介(共18页).ppt

    IUPushRsync 程序利用rsync -U 命令对日志文件进行增量式同步,其优点在于:1)准实时数据压缩传输(降低宽带占用);2)数据完整性检验 数据平台之hadoop Hadoop 是一个能够对PB级数据进行分布式 并行处理的软件...

    1、ETL工程师经典面试题.md

    10. 如何实现增量抽取,分别阐述各种增量抽取方式,并且比较各种方式的优劣,及你推荐的做法? 11. 用过什么 ETL工具,以及该工具简单讲述特点。 12. ETL 工具一般有哪些组成部分,其中数据流中常用的控件有? 13. ...

    论文研究-一种基于朴素贝叶斯算法的OLAP缓存机制.pdf

    以国内外的缓存技术为基础,结合用户的查询习惯,借助增量朴素贝叶斯算法设计了一种新的数据仓库缓存机制,此缓存机制可根据用户的操作习惯判断每次查询的结果是否需要被缓存,以此提高缓存命中率。并通过实验从平均...

    互联网行业大数据分析报告项目信息分析.pptx

    大数据分析需要大量数据,随着数据量的増加,对算法要求降低,数据状态多为动态,增量数据,存量数据也很重要 一体机数据仓库 基本内容 互联网行业大数据分析报告项目信息分析全文共15页,当前为第9页。 基本内容 ...

    苏宁数据仓库应对数据爆发式增长的技术演进

    如下图:近源层是数据仓库拷贝源数据提供整合的数据存储区域,粒度、结构和源系统保持相同缓冲区:保存源系统每天的增量数据,可根据应用需要保留适当历史周期的数据,不长期保存数据操作区:存储数据仓库最细节数据...

    数据仓库实践杂谈(十四)——数据模型参考

    数据仓库实践杂谈(十四)——数据模型参考 众所周知,信息系统最重要的作用就是处理并保存信息,尤其在商业应用中。以银行记账为例,最重要的是账本,不管前面的流程如何,只要记下来张三某年某月存入100元,业务...

Global site tag (gtag.js) - Google Analytics