数据仓库—stg层_数据仓库中的ODSDWDM理解
1. DW
1.1 简介
data warehouse(可简写为DW或DWH)数据仓库,是在数据库已经⼤量存在的情况下,为了进⼀步挖掘数据资源、为了决策需要⽽产⽣的,它并不是所谓的“⼤型数据库”,⽽是⼀整套包括了etl、调度、建模在内的完整的理论体系。数据仓库的⽅案建设的⽬的,是为前端查询和分析作为基础,主要应⽤于OLAP(On-Line Analytical Processing),⽀持复杂的分析操作,侧重决策⽀持,并且提供直观易懂的查询结果。⽐较流⾏的有:AWS Redshift, Greenplum, Hive等。
1.2 主要特点
⾯向主题: 操作型数据库的数据组织⾯向事务处理任务,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织。主题是指⽤户使⽤数据仓库进⾏决策时所关⼼的重点⽅⾯,⼀个主题通常与多个操作型信息系统相关。如个⼈信⽤分析,⾯向这⼀主题,需要从多个不同的⽅⾯进⾏统计分析,从多个操作型信息系统中获取数据并进⾏分析才能得出结论。
集成: 数据仓库的数据有来⾃于分散的操作型数据,将所需数据从原来的数据中抽取出来,进⾏加⼯与融
合,统⼀与综合之后才能进⼊数据仓库。在加⼯的过程中必须消除数据的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。
不可修改: 数据仓库中的数据并不是最新的,⽽是来源于其它数据源。数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
与时间相关: 数据库保存信息的时候,并不强调⼀定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。
1.3 与数据库的对⽐
数据仓库是专门为数据分析设计的,涉及读取⼤量数据以了解数据之间的关系和趋势。数据库⽤于捕获和存储数据,例如记录事务的详细信息。
特性
数据仓库
事务数据库
适合的⼯作负载
分析、报告、⼤数据
事务处理
数据源
从多个来源收集和标准化的数据
从单个来源(例如事务系统)捕获的数据
数据捕获
批量写⼊操作通常按照预定的批处理计划执⾏
针对连续写⼊操作进⾏了优化,因为新数据能够最⼤程度地提⾼事务吞吐量
数据标准化
⾮标准化 Schema,例如星型 Schema 或雪花型 Schema
⾼度标准化的静态 Schema
数据存储
使⽤列式存储进⾏了优化,可实现轻松访问和⾼速查询性能
针对在单⾏型物理块中执⾏⾼吞吐量写⼊操作进⾏了优化
数据访问
为最⼩化 I/O 并最⼤化数据吞吐量进⾏了优化
⼤量⼩型读取操作
1.4 与数据集市的对⽐
数据集市是⼀种数据仓库,⽤于满⾜特定团队或业务部门(例如财务、营销或销售)的需求。它更⼩、更集中,并且可能包含最适合其⽤户社区的数据汇总。
特性
数据仓库
数据集市
范围
集中的多个整合主题领域
分散的特定主题领域
⽤户
组织级
某个社区或部门
数据源
多个来源
单个或多个来源,或数据仓库中已经收集的部分数据
⼤⼩
较⼤,可达数百 GB 到数 PB
较⼩,⼀般不超过数⼗ GB
设计
⾃上⽽下
⾃下⽽上
数据详细信息
完整且详细的数据
可能包含汇总数据
1.5 与数据湖的对⽐
与数据仓库不同,数据湖是所有数据(包括结构化和⾮结构化数据)的中央存储库。数据仓库利⽤针对分析进⾏了优化的预定义 Schema。数据湖中未定义 Schema,⽀持其他类型的分析,例如⼤数据分析、全⽂搜索、实时分析和机器学习。
特性
数据仓库
数据湖
数据
来⾃事务系统、运营数据库和业务线应⽤程序的关系数据
来⾃ IoT 设备、⽹站、移动应⽤程序、社交媒体和企业应⽤程序的⾮关系和关系数据
Schema
设计在数据仓库实施之前(写⼊型 Schema)
写⼊在分析时(读取型 Schema)
性价⽐
更快查询结果会带来较⾼存储成本
更快查询结果只需较低存储成本
数据质量
可作为重要事实依据的⾼度监管数据
任何可以或⽆法进⾏监管的数据(例如原始数据)
⽤户
业务分析师、数据科学家和数据开发⼈员
数据科学家、数据开发⼈员和业务分析师(使⽤监管数据)
分析
批处理报告、BI 和可视化
机器学习、预测分析、数据发现和分析
1.6 个⼈愚见:
数据分类.jpg
2.数据分层
greenplum数据库2.1.原因
清晰数据结构:每⼀个数据分层都有它的作⽤域,这样在使⽤表的时候能更⽅便地定位和理解。
数据⾎缘追踪:简单来讲可以这样理解,我们最终给业务呈现的是⼀个能直接使⽤的数据集市,但是它的来源有很多,如果有⼀张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
减少重复开发:规范数据分层,开发⼀些通⽤的中间层数据,能够减少极⼤的重复计算。
把复杂问题简单化。讲⼀个复杂的任务分解成多个步骤来完成,每⼀层只处理单⼀的步骤,⽐较简单和容易理解。⽽且便于维护数据的准确性,当数据出现问题之后,可以不⽤修复所有的数据,只需要从有问题的步骤开始修复。
屏蔽原始数据的异常。
屏蔽业务的影响,不必改⼀次业务就需要重新接⼊数据。
数据分层⾃下到上依次为ODS,DW,DM。
2.2. ODS
Operation Data Store(ODS) 数据准备区。数据仓库源头系统的数据表通常会原封不动的存储⼀份,这称为ODS层,也称为准备区。它们是后续数据仓库层加⼯数据的来源。
2.3. DW
Data Warehouse Detail(DWD)数据仓库明细层和 Data Warehouse Summary(DWS) 数据仓库汇总层,是业务层与数据仓库的隔离层,是最接近数据源中数据的⼀层,数据源中的数据进过ETL后装⼊本层。这⼀层主要解决⼀些数据质量问题和数据的完整度问题。DW层的表通常包括两类,⼀个⽤于存储当前需要加载的数据,⼀个⽤于存储处理完后的历史数据。
2.4. DM
⼜称数据集市层DM(date market),基于DW上的基础数据,整合汇总成分析某⼀个主题域的服务数据,⼀般是宽表,⽤于提供后续的业务查询,OLAP分析,数据分发等。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论