数据仓库中的ODSDWDM理解
1. DW
1.1 简介
data warehouse(可简写为DW或DWH)数据仓库,是在数据库已经⼤量存在的情况下,为了进⼀步挖掘数据资源、为了决策需要⽽产⽣的,它并不是所谓的“⼤型数据库”,⽽是⼀整套包括了etl、调度、建模在内的完整的理论体系。数据仓库的⽅案建设的⽬的,是为前端查询和分析作为基础,主要应⽤于OLAP(On-Line Analytical Processing),⽀持复杂的分析操作,侧重决策⽀持,并且提供直观易懂的查询结果。⽐较流⾏的有:AWS Redshift, Greenplum, Hive等。
1.2 主要特点
⾯向主题: 操作型数据库的数据组织⾯向事务处理任务,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织。主题是指⽤户使⽤数据仓库进⾏决策时所关⼼的重点⽅⾯,⼀个主题通常与多个操作型信息系统相关。如个⼈信⽤分析,⾯向这⼀主题,需要从多个不同的⽅⾯进⾏统计分析,从多个操作型信息系统中获取数据并进⾏分析才能得出结论。
集成: 数据仓库的数据有来⾃于分散的操作型数据,将所需数据从原来的数据中抽取出来,进⾏加⼯与融
合,统⼀与综合之后才能进⼊数据仓库。
在加⼯的过程中必须消除数据的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
不可修改: 数据仓库中的数据并不是最新的,⽽是来源于其它数据源。数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
与时间相关: 数据库保存信息的时候,并不强调⼀定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。
1.3 与数据库的对⽐
数据仓库是专门为数据分析设计的,涉及读取⼤量数据以了解数据之间的关系和趋势。数据库⽤于捕获和存储数据,例如记录事务的详细信息。
特性数据仓库事务数据库
适合的⼯作
greenplum数据库负载
分析、报告、⼤数据事务处理
数据源从多个来源收集和标准化的数据从单个来源(例如事务系统)捕获的数据
数据捕获批量写⼊操作通常按照预定的批处理计划执⾏针对连续写⼊操作进⾏了优化,因为新数据能够最⼤程度地提⾼事务吞吐量
数据标准化⾮标准化 Schema,例如星型 Schema 或雪花
型 Schema
⾼度标准化的静态 Schema
数据存储使⽤列式存储进⾏了优化,可实现轻松访问和
⾼速查询性能
针对在单⾏型物理块中执⾏⾼吞吐量写⼊操作进⾏了优化
数据访问为最⼩化 I/O 并最⼤化数据吞吐量进⾏了优化⼤量⼩型读取操作
1.4 与数据集市的对⽐
数据集市是⼀种数据仓库,⽤于满⾜特定团队或业务部门(例如财务、营销或销售)的需求。它更⼩、更集中,并且可能包含最适合其⽤户社区的数据汇总。
特性数据仓库数据集市
范围集中的多个整合主题领域分散的特定主题领域
⽤户组织级某个社区或部门
数据源多个来源单个或多个来源,或数据仓库中已经收集的部分数据
⼤⼩较⼤,可达数百 GB 到数 PB较⼩,⼀般不超过数⼗ GB
设计⾃上⽽下⾃下⽽上
数据详细信息完整且详细的数据可能包含汇总数据
特性数据仓库数据集市
1.5 与数据湖的对⽐
与数据仓库不同,数据湖是所有数据(包括结构化和⾮结构化数据)的中央存储库。数据仓库利⽤针对分析进⾏了优化的预定义 Schema。数据湖中未定义 Schema,⽀持其他类型的分析,例如⼤数据分析、全⽂搜索、实时分析和机器学习。
特性数据仓库数据湖
数据来⾃事务系统、运营数据库和业务线应⽤程
序的关系数据
来⾃ IoT 设备、⽹站、移动应⽤程序、社交媒体和企业应⽤程序的
⾮关系和关系数据
Sche ma 设计在数据仓库实施之前(写⼊型
Schema)
写⼊在分析时(读取型 Schema)
性价⽐更快查询结果会带来较⾼存储成本更快查询结果只需较低存储成本
数据质
量
可作为重要事实依据的⾼度监管数据任何可以或⽆法进⾏监管的数据(例如原始数据)
⽤户业务分析师、数据科学家和数据开发⼈员数据科学家、数据开发⼈员和业务分析师(使⽤监管数据)分析批处理报告、BI 和可视化机器学习、预测分析、数据发现和分析
1.6 个⼈愚见:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论