数据中台=大数据平台+数据资产管理平台+数据服务平台
数据中台到底是什么?几年过去了,也一直众说纷纭。
笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋能加速。但以上流程的实现,需要有对应的系统与产品作为支撑,那么基础的数据中台到底应该由哪些系统或者产品组成?这里我们可以先来看一下几个企业的数据中台架构。
可以看出,虽然每个企业由于自身业务的不同,衍生出来的数据中台体系都有所不同,但大的架构方面是基本统一的,都需要通过一个“数据采集接入”-“加工存储”-“统一管理”-“服务
应用”的阶段。
这里笔者认为《数据中台产品经理:从数据体系到数据平台实战》一书中总结的数据中台架构是比较具有普适性的, 不论是互联网行业、还是传统行业,都可以在该架构上进行改造,设计建设自己的中台架构。详见:首个数据中台元数据标准(附下载)总体来说数据中台的功能架构由大数据平台、数据资产管理平台与数据服务平台三大部分组成,其中在数据服务平台中自助分析平台与标签管理系统的应用场景最为广泛。
1、大数据平台
大数据平台是数据中台的基座,我们也可以把大数据平台称为大数据开发平台,它需要具备与大数据相关的开发能力,提供数据存储、数据清洗/计算、数据查询展示及权限管理等功能。那么,应该如何建设上述功能与服务?是不是拥有了上述能力就等同于成功打造大数据平台了呢?其实我们可以发现各公司的大数据平台系统架构其实大同小异,各类架构都包含了数据采集组件、数据存储组件、数据计算引擎、数据权限与安全组件,以及集管理与监控组件等。除了少数像阿里这样倾力打造自研“飞天”系统的企业,其他企业在底层组件选用上,还是以 Hadoop 生态构建的技术体系为主,依托各类开源组件进行优化改进与二次开发。例如,数据存储组件可以选择HBase、Hive等组件,数据计算引擎可以选择Spark、Flink等分布式计算引擎。详见:大数据平台总体架构方案(PPT)既然大家选用的组件相同或者相似,那为什么最终各企业大数据平台的服务能力还是存在差距呢?这有些类似于购买零件组装台式电脑,零件不需要选最贵的,而是要根据实际需求来选择最适合的。好用的大数据平台需要拥有为用户解决问题的能力。因此,数据中台的大数据平台建设不是比拼引用了多少新技术、覆盖了多少技术组件,而是要看它能否解决数据中台建设中所面临的复杂数据现状,能否成大数据etl工具有哪些为数据中台打破数据壁垒的技术保障,能否提供简洁有
效的数据处理工具,如提供自助配置式的数据采集与数据清洗工具等,以及能否提供更多的附加价值。数据中台的大数据平台建设,可以避免各事业部技术团队各自搭建大数据集所带来的资源浪费。统一的、成熟的大数据平台对企业来说,不能一蹴而就,需要循序渐进、分步实施,在持续迭代中构建企业的大数据平台生态。
2、数据资产管理平台
数据资产管理平台主要解决数据资源的管理, 数据资产遍布在各个大数据组件中, 有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各个组件的管控系统很难互相打通, 所以需要一个统一的数据资产管理服务, 来统筹大数据资源的管理。随着大数据平台的建设,构建数据中台的数据体系成为可能,通过对各业务线数据的归类整合,我们可以构建出各个数据主题域,完成数据的规范存储,形成数据资产,进而完成数据资产管理。
在数据中台体系中,数据资产管理平台主要由元数据管理与数据模型管理组成,下面让我们分别了解一下。 1、元数据管理讲述元数据管理,我们需要先弄清楚什么是元数据。元数据(MetaData)通常被定义为:关于数据的数据(Metadata),或者描述数据的数据(data about data),对数据及信息资源的描述性信息。元数据是所有数据中最重要的数
据。详见:指标管理与元数据管理平台这里举一个最通俗的例子。当我们去图书馆借书时,直接面对数以万计的图书,自然难以寻,但是你通过在图书馆查询系统中输入这本的书名、作者、出版社等信息,获取就能准确的图书位置。那么这些书名、作者等信息,就可以理解为元数据,而图书的存放位置、借阅历史记录等,则是我们系统中的普通数据。在数据库中,每一张数据表的表名、创建信息(创建人、创建时间、所属部门)、修改信息、表字段(字段名、字段类型、字段长度等),以及该表与其他表之间的关系等信息都属于这张数据表的元数据。其实,元数据有多种分类方式,笔者更倾向于按照元数据的用途来区分,总共分为三类:业务元数据、技术元数据和管理元数据。
∙业务元数据:描述数据的业务含义、业务规则等,包括业务规则、数据字典以及安全标准等多项内容。通过明确业务元数据,让人们产生统一的数据认知,消除数据歧义,让不懂数据库的业务方读懂数据表的内容。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论