大数据数据仓库—概念
大数据经过反复炒作之后,慢慢的降温下来。大家不再大谈几个v了,落地到企业会发现,大部分场景还是传统的数据仓库的替换。今天梳理下数据仓库的使用场景,以及需要的技术。
1,先谈下数据仓库准确的概念是什么?
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
2,大数据技术相比传统的数据仓库有什么优势?
搞来搞去,又回到了传统的数据仓库吗?事实上,大部分企业的应用传统数据仓库支持就非常好。
相比传统的数据仓库,大数据技术在几个方面有优势:1)支持非结构化数据,传统数据仓库,基于关系理论构建,只支持结构化数据。尤其在互联网行业,非结构化数据是主数据。 2)扩展性上。对于小于100T的结构化数据处理时,往往会发现MPP架构的数据仓库反而性能更高。但是数据仓库有非常明显的扩展瓶颈,目前已知的,最大生产数据仓库节点数据大概是几百个节点。而大数据平台几千台一个集群比比皆是。3)和新的分析方法和算法的结合上。传统数据仓库,还停留在统计,钻取这些传统的BI分析方法。大数据技术衍生出非常多的交互式,BI工具等。
相比传统数据仓库,大数据也有很多劣势:1)小数量下面,比传统的mpp差。大数据量下面,不能满足交互式分析秒级响应的需求。2)对SQL对支持不充分等。所以业界有不少厂商在做这方面的探索,如cloudera的impala,星环的Inceptor,阿里的ads。
本文先介绍数据仓库的基本概念,下一篇介绍大数据数据仓库的应用场景。
微信扫一扫
关注该公众号
相关推荐
是将多个数据源中的数据结合起来并统⼀存储,建⽴数据仓库。 (3)数据变换。过平滑聚集、数据概化、规范化等⽅式将数据转换成适合数据挖掘的形式。 (4)数据归约。寻找依赖于发现⽬标的数据的有⽤特征,缩减数据...
特点 可审计的基础数据层 数据的历史 性、可追溯性和原⼦ ⽽不要求对数据进⾏过度的⼀致性处理和整合 基于主题概念将企业数据进⾏结构化组织 组成部分 Hub 是企业的核⼼业务实体,由实体 key、数据仓库序列代理 键...
数据仓库中的数据是按照一定的主题域进行组织,主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
什么数据结构、思维仓库、迭代算法、样本相关一个个概念玄乎其神,让人摸不着头脑。作为一家专业的大数据处理公司,开运联合告诉你:其实,大数据一点都不神秘,而且就在我们身边。 一 医疗大数据 看病更便捷 在未来...
创建内部表的同时,会将数据挪到数据仓库指定的位置(正确答案) B.删除内部表时只删除源数据 C.创建内部表时,只记录数据指定的路径 D.删除外部表时删除表中数据和源数据 大数据与人工智能-fy全文共22页,当前为第1页...
这20个大数据面试题涵盖了大数据和数据分析领域的基础知识和关键概念。它们探讨了大数据的三个V(Volume,Variety,Velocity)等基本概念,核心...此外,这些问题还涉及到数据仓库、NoSQL数据库和机器学习等相关概念。
数据平台的发展 1981 1999 2003 2005 2007 2009 2011 2013 2019 1988 1992 1996 数据平台发展情况 第一个DW "数据仓库"概念提出 数据集市 传统数据仓库兴起 Hadoop项目诞生 大数据计算 大数据处理 新一代数据平台 ...
福建师范大学精品大数据导论课程系列 (5.7.1)--4.4 一种基于Hadoop的数据仓库之一.pdf 福建师范大学精品大数据导论课程系列 (5.8.1)--4.4 一种基于Hadoop的数据仓库之二.pdf 福建师范大学精品大数据导论课程系列 ...
福建师范大学精品大数据导论课程系列 (5.7.1)--4.4 一种基于Hadoop的数据仓库之一.pdf 福建师范大学精品大数据导论课程系列 (5.8.1)--4.4 一种基于Hadoop的数据仓库之二.pdf 福建师范大学精品大数据导论课程系列 ...
5. 数据仓库Hive和Impala部分考查了Hive/Impala在大数据生态中的定位、基本命令以及与传统数据仓库的区别。 6. Spark部分主要考查了Spark的特性、运行架构、编程模型、Scala语言与RDD等核心概念。 7. 流计算部分...
勾选从现有关系数据库或数据仓库,继续下一步 图14 选择定义方法 14. 选择microsoft 决策树,继续下一步 图15 创建数据挖掘模型结构 15. 下一步 图16 选择数据源视图 16. 勾选事例,继续下一步 图17 指定表类型 17....
【目录】 1.1 从数据库到数据仓库 1.2 什么是数据仓库 1.3 数据仓库与传统数据库的比较 1.4 数据仓库的系统结构 1.5 数据仓库的数据组织 1.6 本章小结
数据仓库Hive和Impala部分考查了Hive/Impala在大数据生态中的定位、基本命令以及与传统数据仓库的区别。 Spark部分主要考查了Spark的特性、运行架构、编程模型、Scala语言与RDD等核心概念。 流计算部分着重考查了流...
【目录】 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)
完整版 重庆大学 商务智能课程 BI教程 大数据与数据挖掘教程 第3章 数据仓库的概念与结构(共52页).ppt 完整版 重庆大学 商务智能课程 BI教程 大数据与数据挖掘教程 第3章 数据仓库设计与开发(共100页).ppt 完整...
第3章 数据仓库的概念与结构(共52页).ppt 第3章 数据仓库设计与开发(共100页).ppt 第4章 数据挖掘(共81页).ppt 第5章 数据预处理技术(共114页).ppt 第5章 数据预处理技术案例(共18页).ppt 第6章 OLAP 联机...
福建师范大学精品大数据导论课程系列 (5.7.1)--4.4 一种基于Hadoop的数据仓库之一.pdf 福建师范大学精品大数据导论课程系列 (5.8.1)--4.4 一种基于Hadoop的数据仓库之二.pdf 福建师范大学精品大数据导论课程系列 ...
绪论 2 1.1项目背景 2 1.2 提出问题 2 2 数据库仓库与数据集的概念介绍 2 2.1数据仓库 2 2.2数据集 2 3 数据仓库 3 3.1 数据仓库的设计 3 3.1.1数据仓库的概念模型设计 3 3.1.2数据仓库的逻辑模型设计 3 3.2 数据...
商务智能技术 三个核心技术 – 数据仓库Data Warehouse – 联机分析处理OLAP – 数据挖掘Data Mining 其他: – 数据可视化 – 计算机网络与Web技术 – 云计算 – 大数据 数据挖掘基本概念 "啤酒"和"尿布" 一则...
福建师范大学精品大数据导论课程系列 (5.7.1)--4.4 一种基于Hadoop的数据仓库之一.pdf 福建师范大学精品大数据导论课程系列 (5.8.1)--4.4 一种基于Hadoop的数据仓库之二.pdf 福建师范大学精品大数据导论课程系列 ...