阿⾥巴巴⼤数据实践:⼤数据建设⽅法论OneData
⾯对爆炸式增长的数据,如何建设⾼效的数据模型和体系,对这些数据进⾏有序和有结构地分类组织和存储,避免重复建设和数据不⼀致性,保证数据的规范性,⼀直是⼤数据系统建设不断追求的⽅向。
OneData即是阿⾥巴巴内部进⾏数据整合及管理的⽅法体系和⼯具。阿⾥巴巴的⼤数据⼯程师在这⼀体系下,构建统⼀、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不⼀致性,充分发挥阿⾥巴巴在⼤数据海量、多样性⽅⾯的独特优势。借助这⼀统⼀化数据整合及管理的⽅法体系,我们构建了阿⾥巴巴的数据公共层,并可以帮助相似的⼤数据项⽬快速落地实现。下⾯重点介绍OneData体系和实施⽅法论。
1.定位及价值
阿⾥巴巴集团⼤数据建设⽅法论的核⼼是:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。⽬前,阿⾥巴巴集团数据公共层团队已把这套⽅法论沉淀为产品,以帮助数据PD、数据模型师和ETL⼯程师建设阿⾥的⼤数据。这⼀体系包含⽅法论以及相关产品。
建设统⼀的、规范化的数据接⼊层(ODS)和数据中间层(DWD和DWS),通过数据服务和数据产品,完成服务于阿⾥巴巴的⼤数据系统建设,即数据公共层建设。提供标准化的(Standard)、共享的
(Shared)、数据服务(Service)能⼒,降低数据互通成本,释放计算、存储、⼈⼒等资源,以消除业务和技术之痛。
2.体系架构
图⽚
体系架构如图。
业务板块:由于阿⾥巴巴集团业务⽣态庞⼤,所以根据业务的属性划分出⼏个相对独⽴的业务板块,业务板块之间的指标或业务重叠性较⼩。如电商业务板块涵盖淘系、B2B系和AliExpress系等。大数据etl工具有哪些
规范定义:阿⾥数据业务庞⼤,结合⾏业的数据仓库建设经验和阿⾥数据⾃⾝特点,设计出的⼀套数据规范命名体系,规范定义将会被⽤在模型设计中。后⾯章节将会详细说明。
模型设计:以维度建模理论为基础,基于维度建模总线架构,构建⼀致性的维度和事实(进⾏规范定义)。同时,在落地表模型时,基于阿⾥⾃⾝业务特点,设计出⼀套表规范命名体系。
3.模型设计
模型设计指导理论:阿⾥巴巴集团数据公共层设计理念遵循维度建模思想,可参考Star Schema-The Complete Reference和The Data Warehouse Toolkit-The Definitive Guide to Dimensional Modeling。数据模型的维度设计主要以维度建模理论为基础,基于维度数据模型总线架构,构建⼀致性的维度和事实。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。