元数据管理系统
⾯临的问题
1. 各数据平台业务术语定义不⼀致,导致员⼯之间交流产⽣误会,降低沟通效率。
2. 各数据平台指标数据来源、计算⼝径不⼀致,导致出现计算结果和取数偏差。
3. 各数据平台数据没有统⼀的数据标准导致数据难以集成和统⼀。
上述问题的由来,主要是不同业务线的数据分析⼈员、数据开发⼈员,以及不同的产品之间,缺乏有效的沟通,也没有⼀个统⼀的⼊⼝,来记录业务的发⽣和加⼯过程。再加上⼈员的流动,长时间积累之后就产⽣了这些问题。随处可见的数据不统⼀,难以提升的数据质量,难以完成的数据模型梳理等源源不断的基础性数据问题,限制了数据平台发展,导致数据应⽤不能快速展⽰效果。
解决思路
建⽴元数据管理系统是解决上述问题的关键。那么,什么是元数据?简单来说,元数据就是描述数据的数据(data about data),扩展地说,元数据是指来⾃企业内外的所有物理数据和知识,包括企业所使⽤数据的结构、物理数据的格式、技术和业务过程、数据的规则和约束,这些元数据可能存在于软件中,也可能存在于⽂档中,甚⾄只处于意识形态中⽽尚未整理出来。
元数据管理
1. 跟踪每⼀个数据元素的⽣命周期。为每⼀个数据元素提供⽣命周期信息,从数据源到最终的⽤户展现,包含了原始字段名,ETL处理,⽬标
表定义和⽤户的表现定义(包含转换和导出的列)。
2. 分析变更带来的影响可能带来的冲突和影响。对数据源字段的跟踪能够在数据源发⽣变更时分析对数据仓库带来的影响。例如数据源
中的年份字段长度由2位变成4位、数据源中某些字段删除都会对数据仓库加载和转换脚本产⽣影响,但数据仓库中的对象应该保持稳定。
3. ⽀持当前数据与历史数据的合并,处理和标识⼰经归档过期数据。
4. 为更好的管理数据仓库提供依据,例如可以对哪些元数据需要保存进⾏分析、获得元数据发⽣了哪些变化,其频度如何,以及哪些元数据变
化最频繁等数据,并通过辅助分析⼯具来产⽣决策⽀持信息。
明确元数据管理范畴
大数据etl工具有哪些
元数据主要可以分为技术元数据和业务元数据。
1. 技术元数据是描述系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理⽅⾯的特征描述,覆盖系统数据源
接⼝、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节。
2. 业务元数据是描述系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息。 从元
数据的层次结构上来说,⽬前阶段对L0、L1层元数据进⾏管理。从元数据的分析领域来说,主要对技术元数据和业务元数据进⾏管理。
元数据获取
在企业中很多元数据的管理是通过⼿⼯录⼊的⽅式⼈⼯整理的,在⼤数据时代,⾯对如此复杂的数据,⼈⼯已经完全不可能梳理清楚。企业需要从技术上提供各种⾃动化能⼒,实现对元数据的⾃动获取,包括⾃动元数据信息采集、⾃动服务信息采集与⾃动业务信息采集等这要求企业使⽤的数据管理⼯具⽀持⼀系列的适配器。⽐如各种数据库的适配器,各种ETL⼯具的适配器,脚本等等适配器。⽬前很多⼯具都采⽤导出XML,这种会缺少很多细节,⽽细节是数据资产的关键点,所以对于⼯具的采集最好采⽤直连的⽅式。
管理核⼼元数据
数据标准是元数据管理中很重要的内容,但是建⽴有效的数据标准并落地,是有⼀定难度的,传统的元数据管理的模式需要建⽴⼀套规范元数据模型,即使企业实际元数据模型中有上万个字段,也需要将每个字段于规范元数据模型进⾏⽐对,这种⽅式往往难以落地。其实只需要在众多元数据中挑选出核⼼元数据,只管理这些核⼼元数据定义,依照核⼼元数据建⽴标准,就可以实现企业数据治理的⽬标,还能提升数据治理的效率。
元数据样例
随业务持续更新元数据标准
对于企业来说,有很多元数据标准建⽴以后,往往只是⼀份⽂档,没有根据企业业务发展及时做出更新,时间长了就成为了摆设。实际上,元数据标准是需要随着企业的业务变化⽽不断进⾏修订的,⽐如在企业拓展新业务的时候,需要在增加相应的标准进去,对于没有价值的标准,也要及时废弃。
元数据仓库分层设计

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。