基于国网云平台的数据治理框架研究及分析应用--688IT编程网

137

数据库技术

Database Technology

电子技术与软件工程

Electronic Technology & Software Engineering

1 引言

数据中心是公司重要的基本支持平台。在2019年，该公司将统一组织数据中心技术能力规划和产品选择。在全方位服务的统一数据中心分析领域的现有组件的基础上，将引进成熟数据中台产品来改进数据中心组件系统。2 中台能力架构2.1 数据中台能力架构

根据前期公司规划的数据中台能力架构，数据中台技术能力主要包括数据接入、存储计算、数据分析、数据服务、数据资产管理、运营管理六方面。2.2 国网组件能力架构

根据数据中台技术能力架构，数据接入、数据计算存储、数据分析、数据服务、数据资产管理、数据运营管理六方面能力对应国网公司16种技术组件，对应1种公司自研组件，六大能力。

数据接入方面，包括DataHub 、DTS 、DataWorks DI 三种组件，其中DataHub 组件功能类似开源Kafka 组件，主要用于结构化数据增量和采集量测类数据实时接入；DTS 组件功能类似Oracle OGG 组件，主要用于存储结构化数据的关系型数据库间的数据复制和迁移；DataWorks DI 组件功能类似Informatica 组件，主要用于结构化数据全量抽取或增量标识的数据增量抽取。

数据存储计算方面，包括MaxCompute 、DRDS 、OTS 、TSDB 、Blink 、MaxcomputeSpark 、GraphCompute 、OSS 总计8种组件，其中MaxCompute 组件在数据存储上类似开源Hive+HDFS ，同事提供分布式数据仓库和离线计算服务，Maxcompute Spark 提供内存计算服务，MaxCompute Analytic 类似GBase 数据库，提供即席查询和多维汇总计算能力；DRDS 组件与RDS 组件结合提供分布式关系数据库服务；OTS 组件功能类似开源HBase 数据库，用于海量结构化数据存储；TSDB 组件功能类似开源OPEN TSDB

组件，主要用于采集量测类时序数据存储；Blink 组件功能类似开源Flink 组件，用于流式数据实时计算,OSS 组件为对象存储，可用于存储非结构数据。

数据服务方面，包括DataWorks 组件和CSB 组件，用于数据服务封装，服务封装后统一注册至云上API 网关对外服务。

数据分析方面，包括QuickBI 组件，用于数据自助式分析和报表可视化展示。

数据资源管理和运营管理方面，包括DataWorks 、DataQ 组件，其中DataQ 组件主要用于标签管理，数据资源管理和运营管理能力由DataWorks 统一提供。3 国网数据中台产品3.1 总体架构

以应用需求为导向，结合国网技术产品特点，设计构建数据中台总体架构，全面支撑离线数据分析、实时计算、非结构化数据三类应用场景构建。数据中台总体架构如图1所示。

（1）实时计算场景：该场景重点基于结构化数据、量测数据，经过数据实时接入、流式计算处理，以服务订阅的方式为应用提供实时数据。

基于国网云平台的数据治理框架研究及分析应用

刘雪剑1 徐赢2 张辉1 马崇瑞1

（1.北京中电普华信息技术有限公司北京市 100000 2.国网辽宁省电力有限公司大连供电公司辽宁省大连市 116000）（2）离线数据分析场景：该场景重点基于结构化数据、量测数据，经过数据接入、数据整合（量测数据关联计算或清洗转换）、（宽表）逻辑处理或分析模型运算、服务封装发布等环节后，满足应用T+1或H+1数据分析需求。

hbase属于什么数据库

（3）非结构化数据场景：该场景基于非结构化数据，经过非结构化对象存储、非结构化内容提取分析、结构化数据转换等环节后，满足应用对非结构化数据的分析处理需求。

此次数据中台试点建设涉及离线数据分析场景和实时计算场景。多维精益管理体系频道化报表、现代（智慧）供应链智慧运营中心、数字化审计涉及离线数据分析场景；供电服务指挥平台、同期线损主要涉及量测数据计算场景。3.2 结构化数据离线分析计算典型技术方案3.2.1 数据流转架构

对2019年各试点单位多维精益管理体系频道化报表、现代（智慧）供应链智慧运营中心、数字化审计等业务逻辑和数据逻辑进行分析提炼后，形成基于结构化数据分析计算的典型数据流转结构。

结构化数据在中台流转主要经过贴源层、共享层和分析层三层。其中贴源层定位为贴近源业务系统，主要存储源业务系统的存量及增量数据，其表结构与源业务系表结构基本保持一致；共享层定位为模型层，用于存储按照SG-CIM 模型整合转换的模型表；分析层用于存储按业务逻辑处理后的结果表。具体的结构化数据流向如下：

（1）源业务系统至贴源层：源系统数据通过数据接入工具全量抽取到中台贴源层中，并根据实际业务需求配置增量数据接入的频度。

（2）贴源层至共享层：依据国网下发的SG-CIM 模型，通过数据集成开发工具在共享层建模，按照模型将贴源层数据进行清洗整合，形成模型表存入共享层。

（3）共享层至分析层：依据具体的业务场景需求，对共享层的物理模型表按照具体业务分析计算逻辑，进行数据开发并形成结果表存储至分析层。

摘　要：本文通过比较数据中心，数据仓库和数据平台的特征，阐明了数据中台应具有的功能。结合同行业先进数据建设，指出了数据中台建设中需要注意的关键指标，为企业数据中心的建设提供了参考。

关键词：中台能力架构数据中台；数据流转图1：国网数据中台总体架构图

数据库技术Database Technology

电子技术与软件工程Electronic Technology & Software Engineering

3.2.2 技术架构

贴源层使用分布式数据仓库MaxCompute，源业务系统数据通过DataWorks、DTS、OGG、DataHub组件接入；共享层使用分布式数据仓库MaxCompute，通过DataWorks组件完成贴源层数据表到SG-CIM模型层数据表转化；分析层使用MaxCompute Analytic、DRDS（RDS），基于业务逻辑通过DataWorks组件完成业务分析计算后的结果表开发；通过DataWorks组件对计算结果封装为Webservice、Restful等类型的数据服务API，发布注册至API 网关后，供外部报表工具调用进行可视化展示。

源端数据接入：针对源端为Oracle数据库的数据表，采用“定期全量抽取”和“初始化存量抽取+增量接入定期合并”的方式接入数据中台，具体如下：

全量抽取：使用DataWorks DI组件通过Oracle数据库只读账号直连源端数据库，将全量数据的一次性批量接入和定期全量写入MaxCompute。

增量接入：使用OGG+DataHub组合方式，源端业务系统数据库OGG服务增量数据实时同步至数据中台OGG目标端服务，经DataHub插件解析后，以流方式通过DataHub写入MaxCompute贴源层增量表中；增量数据按业务需要通过DataWorks与上一周期数据进行合并。

数据清洗整合：按照SG-CIM模型，使用DataWorks工具在共享层中创建模型物理表，基于模型表与贴源表的映射关系和清洗规则，形成SQL计算逻辑，执行数据同步任务将贴源层数据进行转换写入共享层模型物理表。

数据分析计算：基于DataWorks可以对贴源层和共享层模型数据进行分析计算，使用封装好的数据分析服务及算法模型服务，将数据通过DataWorks数据集成同步至分析层DRDS（RDS）或MaxCompute Analytic，形成统计指标结果、主题关联宽表等，供上层应用使用。

进行数据分析计算时，根据模型数据的复杂度和业务需求，合理选用DataWorks的数据分析计算工具（包括ODPS Spark、PyODPS或ODPS SQL）。ODPS SQL适合处理逻辑清晰，针对某一行或者多行不会进行多次迭代计算，通常循环一次就可实现的数据开发场景。需要多次迭代或者动态查询并计算的场景结合自身开发能力，选用ODPS Spark或者PyODPS进行数据开发。通过编写数据分析计算脚本或

者程序，进行计算汇总、形成宽表，再通过DataWorks DI将汇总数据同步到分析层DRDS中。

数据服务：基于DataWorks数据服务模块，将分析层计算结果数据封装为数据服务API接口，发布至API网关，在API网关组件上对发布的API进行调用授权许可。根据调用规模采用不同方式，当单个数据服务返回结果超过2000条或大小超过5MB时，使用数据分页查询机制，通过构建带分页功能的数据服务，业务应用调用数据服务时指定分页页数和每页数据条数参数，通过多次调用完成全部数据结果查询。

3.3 量测数据分析计算技术方案

3.3.1 数据流转架构

根据公司采集量测类应用的数据需求，采集量测类数据包括离线计算及实时计算两类，具体的量测数据流转为：

（1）实时计算类采集量测数据接入。

（2）实时数据关联计算。

（3）实时计算结果发布。

（4）实时计算维度表映射。

3.3.2 技术架构

2019年部分省公司未部署TSDB数据库，试点验证主要采用Maxcompute数据库和OTS数据库，经与原厂技术专家沟通，在采集量测类应用技术架构中，建议采用TSDB存储处理采集量测数据，计算结果可基于MaxCompute Analytic构建数据服务，同时TSDB 与其他中台组件集成性还需要进一步验证。

接入层：采集量测类数据使用DataWorks从大数据平台HBase 全量迁移；使用OGG + DataHub实现增量数据抽取。档案结构化数据使用dataworks工具实现全量数据抽取；使用OGG + DataHub 实现增量数据抽取。

计算存储层：通过MaxCompute构建离线数据场景，通过TSDB、OTS构建准实时数据场景，通过DataWorks+MaxCompute 开展离线计算、统计分析，通过Blink+DataHub开展实时计算。

数据服务层：基于DataWorks提供Webservice、Restful等API 服务，通过QuickBI服务开发相关数据报表。

3.4 增量数据接入

源端为Oracle表，通过OGG+DataHub方式进行接入，通过OGG程序将Oracle生产库中数据同步至实时数据分发平台DataHub，通过Blink流计算组件将DataHub中数据进行清洗换为标准模型后双发至TSDB/

OTS和MaxCompute中。

源端为增量E文件，通过自研解析工具Eparse解析E文件方式进行接入，利用采集量测组件SG-ETL将原始E文件转换为标准E文件，自研解析工具Eparse解析标准E文件后发送数据至DataHub，通过Blink组件将DataHub中数据双发至TSDB/OTS和MaxCompute中。

3.5 历史数据迁移

采集量测存量数据存储在全业务统一数据中心HBase中，将全业务统一数据中心HBase中存量量测数据通过DataWorks组件迁移至MaxCompute。DataWorks数据开发中通过OPDS SQL将HBase 数据表中RowKey拆分写入到MaxCompute中。

3.6 实时计算

通过“消息队列+实时计算”组件完成采集量测类实时计算，实时计算引擎通过实时消费DataHub数据和维度表（实时计算关联的全部表都是维度表，如用户档案表等）关联完成实时计算，实时计算维度表类型包括分布式列式数据库OTS、分布式数据仓库MaxCompute和关系型数据库DRDS/RDS中，实时计算结果数据按需支撑量测业务应用。

3.7 结果输出

根据不同业务的分析计算需求，可按需将实时计算结果数据存储至分析型数据库（支撑数据服务发布）、分布式数据仓库（支撑离线类分析计算）、消息队列（支撑数据实时发布订阅）及时序数据库（支撑时序数据处理）以支撑业务应用。

3.8 数据服务

通过数据中台DataWorks组件实现数据服务的快速封装发布，支持向导模式和SQL模式两种模式，通过API网关实现数据服务的统一管理，支持DRDS、RDS、OTS等数据源。

参考文献

[1]王珊，王会举，覃雄派等.架构大数据：挑战、现状与展望[J].

计算机学报,2011,34(10):1741-1752.

[2]金培权，郝行军，岳丽华.面向新型存储的大数据存储架构与

核心算法综述[J].计算机工程与科学,2013,35(10):12-24.

作者简介

刘雪剑(1985-)，男，天津市人。大学本科学历，工程师。研究方向为云计算、数据治理。

徐赢（1992-），女，辽宁省大连市人。大学本科学历，工程师。研究方向为软件工程、宏观经济、产业经济、人力资源管理。

张辉（1977-），男，江西省武宁县人。硕士研究生学历，高级工程师。研究方向为云计算。

马崇瑞（1993-），男，黑龙江省大兴安岭地区人。大学本科学历，助理工程师。研究方向为云计算、数据挖掘、网络信息安全、人工智能应用。

138

688IT编程网

基于国网云平台的数据治理框架研究及分析应用

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

基于国网云平台的数据治理框架研究及分析应用

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行