`
jiezhu2007
  • 浏览: 241266 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
Cfa1f850-3fc3-3a36-9cd8-c3415c9610c6
hadoop技术学习
浏览量:141798
Group-logo
大数据产业分析
浏览量:2932
社区版块
存档分类
最新评论

大数据仓库-kudu

阅读更多

数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个数仓的基础。

 

kudu目标

cloudera公司最近发布了一个kudu存储引擎。按照cloudera的想法,kudu的出现是为了解决,hbase,parquet不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。cloudera 的设计目标是:(http://blog.cloudera.com/blog/2015/09/kudu-new-apache-hadoop-storage-for-fast-analytics-on-fast-data/)

• Strong performance for both scan and random access to help customers simplify complex hybrid architectures

在扫描和随机访问两种场景下都有很强的性能,帮助客户简化混合架构。

• High CPU efficiency in order to maximize the return on investment that our customers are making in modern processors

高cpu利用率

• High IO efficiency in order to leverage modern persistent storage

高io效率充分利用现代存储

• The ability to update data in place, to avoid extraneous processing and data movement

支持数据原地更新

• The ability to support active-active replicated clusters that span multiple data centers in geographically distant locations

支持双活复制集群

kudu核心机制

Cloudera有一篇论文描述kudu的机制,Kudu: Storage for Fast Analytics on Fast Data 。可以从http://getkudu.io/kudu.pdf下载。这里简单说下kudu的关键机制。

 

  1. 模仿数据库,以二维表的形式组织数据,创建表的时候需要指定schema。所以只支持结构化数据。

  2. 每个表指定一个或多个主键。

  3. 支持insert/update/delete,这些修改操作全部要指定主键。

  4. read操作,只支持scan原语。

  5. 一致性模型,默认支持snapshot ,这个可以保证scan和单个客户端 read-you-writes一致性保证。更强的一致性保证,提供manually propagate timestamps between clients或者commit-wait。

  6. cluster类似hbase简单的M-S结构,master支持备份。

  7. 单个表支持水平分割,partitions叫tablets,单行一定在一个tablets里面,支持范围,以及list等更灵活的分区键。

  8. 使用Raft 协议,可以根据SLA指定备份块数量。

  9. 列式存储

  10. delta flushes,数据先更新到内存中,最后在合并到最终存储中,有专门到后台进程负责。

  11. Lazy Materialization ,对一些选择性谓词,可以帮助跳过很多不必要的数据。

  12. 支持和MR/SPARK/IMPALA等集成,支持Locality ,Columnar Projection ,Predicate pushdown 等。

     

总结

为应对BI领域少量更新和大量扫描分析场景,kudu 借鉴了很多传统数仓等技术。对这个领域目前是impala+kudu/Hive/Spark SQL/Greenplum MPP数据库在混战,未来这个会走向融合,传统的mpp数据库个人认为会是一个过渡产品。

 

 
 

微信扫一扫
关注该公众号

0
0
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    企业级大数据DMP广告投放实战-视频教程网盘链接提取码下载 .txt

    而比较特别之处在于采用了最新的大数据仓库-Kudu存储引擎,这让课程在一定程度更加得到升华。Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的成员之一(incubating),专门为了对快速变化的数据进行...

    企业级大数据DMP广告投放实战

    第一章Kudu入门,第二章CDH环境安装,第三章系统搭建,第四章报表开发,第五章商圈库开发,第六章用户标签开发,及课程资料六部分组成。而比较特别之处在于采用了最新的大数据仓库-Kudu存储引擎。

    大数据图标大全.docx

    强大,可靠的数据处理分发工具 Presto 分布式大数据SQL查询引擎 Cassandra 一个面向列式存储的数据库 Greenplum Database 旗舰分析数据仓库 Superset 可视化分析工具 Livy REST Service for spark 大数据图标大全...

    全新大数据企业电商数据仓库项目实战教程

    CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据...

    大数据—电商数仓项目

    CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据...

    beihu-bigdata:大数据

    人人会点大数据! 本项目内容主要以笔记为主,后期如果涉及相关BigData代码,会在个人Github账号中给到Demo. 如果你觉得写得差强人意,麻烦给一个小星星! 简单分类: 数据采集:Flume、Kafka、Scribe、Chukwa 数据...

    1小时快速入门大数据 ——从面试题还原学习流程

    国内独角兽公司在职大数据工程师,负责商业级BI辅助决策项目,对于Hadoop、Hive、Spark、Kylin、Kudu、Flink等大数据组件及框架有深入研究。 【讲座亮点】: DA/DE/DS傻傻分不清,职位到底如何划分? 数据仓库浅谈,...

    Java及大数据学习路线.pdf

    命令解析器Shell 2.3Hadoop⽣态体系 ⼤数据存储框架Hadoop 分布式服务管理框架zookeeper hadoop⾼可⽤HA 数据仓库hive 数据查询框架impala+kudu+clouderManager ⽇志采集传输框架flume/idea 分布式发布-订阅消息系统...

    大数据离线计算的架构与组件.pdf

    类似parquet、kudu等技术都是利⽤了这 ⼆.⼤数据离线计算的架构 三.⼤数据离线计算涉及组件 1>.HDFS HDFS 是Hadoop上的分布式⽂件系统。 HDFS采⽤主从模式,其架构主要包含NameNode,DataNode,Client三个部分: ...

    仓库:个人学习文献涉及到数据仓库建模,实时计算,大数据,Java,算法等

    仓库:个人学习文献涉及到数据仓库建模,实时计算,大数据,Java,算法等

Global site tag (gtag.js) - Google Analytics