第34卷第4期 2017年4月
计算机应用与软件
Computer Applications and Software
V o L34No. 4
Apr. 2017
大数据环境下的数据治理框架研究及应用
杨琳高洪美宋俊典张绍华
(上海计算机软件技术开发中心上海2〇1112)
摘要大数据技术及应用创新促进了数据的业务化。从数据中发现问题到解决问题、从业务支撑到业务创 新、从商业智能到决策指引,数据与业务相伴相生,大数据环境下的机遇与风险共存。通过对当前国内外数据治 理理论、方法和新的应用需求分析,提出大数据环境下的数据治理框架,包含数据治理目标、治理保障、治理域和 治理方法论等。并分析大数据治理框架的应用,对组织开展大数据环境下的数据治理具有重要的参考价值和 意义。
关键词大数据数据治理框架数据质量数据安全隐私
中图分类号T P39文献标识码A D O I:10. 3969/j. issn. 1000-386x. 2017.04.012 RESEARCH AND APPLICATION OF DATA GOVERNANCE FRAMEWORK
IN BIG DATA ENVIRONMENT
Y a n g Lin G a o H o n g m e i Song Jundian Z h a n g Shaohua
{Shanghai Development Center of Computer Software Technology,Shanghai 201112 ,China)
Abstract Innovation and application of big data technology has promoted data to be a business. F r o m data discovery to problem solving,from business support to business innovation,from business intelligence to decision-making guidelines,data and business go h and in h a n d,and big data environment opportunities and risks co-exist. Based on the analysis of current domestic and foreign data governance theories,methods and n e w application requirements,this paper proposes a data governance framework for big data environment, including data governance objectives,governance guarantee,governance domain and governance methodology. This paper also analyzes the application of big data governance framework, which is of great reference value and significance to t
he data governance in big data environment. Keywords Big data Data governance framework Data quality Data security and privacy
〇引言
大数据为组织带来巨大商机的同时,也向传统数 据治理提出挑战。半结构化、非结构化数据的高效处 理和应用对技术架构提出更高要求。数据集成、分析 处理时的数据质量问题更加严峻,数据开放与共享使 安全隐私问题更加突出。
海量、多源异构的数据不仅仅对数据管理、存储、处理和应用带来了挑战。组织在寻求新技术来支撑大 数据的应用,获取更大应用价值的同时,数据开放与共 享将个人隐私暴露在平台前端。数据开放与隐私保护、数据应用创新与风险合规等已成为当前数据治理 领域面临的巨大挑战,越来越多的组织开始重视数据 治理,将数据治理视为组织发展的重要战略。
传统的数据治理手段已不能完全满足大数据治理 的需求,不少组织和学者开始关注、探索大数据治理。文献[1]从社会治理的角度,提出要顺应大数据时代的 发展趋势和本质要求,树立大数据治理意识;文献[2 ]通过大数据平台和信息架构来实现大数据与企业数据 的灵活集成,结合企业数据的获取、存储、组织和分析 作出科学决策,以实现企业大数据治理研究;文献[3 ]指出有效治理大数据和挖掘分析其潜在的业务价值,是商业银行面临的新课题,从大数据时代的机遇和挑
收稿日期:2016 -12 -27。上海市科技人才计划项目(16XD1421500)。杨琳,工程师,主研领域:IT治理,数据治理。高洪美,硕 士。宋俊典,副研究员。张绍华,副研究员。
66计算机应用与软件2017 年
战剖析数据治理面临的问题,并基于制定数据标准体 系和流程、数据质量规划、评估和管理模式等方面提出 大数据时代的数据治理措施;文献[4 ]从利益相关者 视角分析了大数据环境中个人隐私治理问题,提出多 元主体协同治理机制,为平衡数据挖掘和隐私保护提 供参考。
因此,组织需顺应大数据的发展,树立大数据治理 意识,构建完整的治理理论和框架来指导、监督和评估 组织的数据治理,从而更好地支撑大数据技术的应用 创新和价值实现,满足数据资产化的需求,保障数据质 量和安全隐私,增强组织决策能力与核心竞争力,大数 据环境下的数据治理研究迫在眉睫。
1数据治理国内外研究概述
数据治理一直是国内外研究的热点和重点,已取 得了一定的成果,由于切入视角和侧重点的不同,业界 给出的数据治理定义已有几十种,但这些定义目前为 止仍未形成一个统一的标准。综合当前主流的数据治 理的内涵和外延可知,数据治理主要聚焦在治理目标、职能、范围、过程与规范等方面,其本
质是对企业的数 据管理和利用进行评估、指导和监督,通过提供不断创 新的数据服务,为企业创造价值[5]。
(1)国际标准化组织(ISO/ffiC JTC 1/SC 4〇)
国际标准化组织I T服务管理与I T治理分技术委 员会制定了 IS0/:I EC 38500系列标准,提出了信息技 术治理的通用模型和方法论,并认为该模型同样适用 于数据治理领域[6]。在数据治理规范相关的IS0/:I EC 38505标准中,阐述了基于原则驱动的数据治理方法 论,提出通过评估现在和将来的数据利用、指导数据治 理准备及实施、监督数据治理实施的符合性等。该模 型实际上是对I T治理方法论的进一步扩展,并未对数 据治理的实施和落地提供有效的手段。
(2)国际数据治理研究所(D G I)
D G I从组织、规则和过程三个层面总结数据治理 的十大关键要素,创新性地提出D G I数据治理框架[7]。该框架以直观方式展示十个基本组件间的逻辑 关系,形成一个从方法到实施的自成一体的完整系统。
D G I强调数据治理区别于I T治理,将数据治理归结为 组织依据规则对治理范围进行实施的过程,其治理目 标、治理域有待进一步明确。
(3)国际信息系统审计和控制协会(IS A C A)
I S A C A提出了面向过程的信息系统审计和评价的最佳实践C0BIT5. 0,提出了基于原则的自上而下的企业I T治理与管理框架,对治理和管理作了严格区 分[8]。同时提出数据治理五项基本原则[11]:满足利益 相关者需求、端到端覆盖企业、采用单一集成框架、启 用一种综合的方法、区分治理与管理。该最佳实践在 治理原则的基础上,分析了数据治理的利益相关者、促 成因素、范围、治理和管理的关键领域等,在如何解决 大数据治理的生命周期、数据应用创新等方面有待深入。
(4) I B M数据治理委员会(IBM D G Council)
I B M数据治理委员会通过结合数据特性和实践经 验,有针对性地提出了数据治理的成熟度模型,将数据 治理分为五级,即初始阶段、基本管理、主动管理、量化 管理和持续优化。同时在构建数据治理统一框架方 面,提出了数据治理的要素模型[9],将数据治理要素划 分为支撑域、核心域、促成因素和成果四个层级。IBM D G Council认为业务目标或成果是数据治理的最关键 命题,在支撑域、核心域和促成因素的作用下,组织最 终可以获得业务目标或成果,实现数据价值。该模型 重点关注数据治理过程和方法。
(5)信息技术服务分会(ITSS)
ITSS服务管控工作组是国内信息技术服务领域 的信息技术治理和数据治理的标准制定和研究机构。ITSS相关的机构在数据治理原则研究的基础上,提出 数据治理的框架,明确数据治理域、数据治理的促成因 素和内外部环境。并明确数据治理的任务和过程,旨在评估组织数据管理能力的成熟度,指导组织建立数 据治理体系,并监督数据管理体系的建设和完善。
以上研究成果奠定了数据治理的原则、模型和基 本框架,本文将在以上成果的基础上,结合典型的大数 据应用和创新,系统分析大数据环境下数据治理的新 需求,提出大数据治理的框架,并开展相关的应用分析。
2大数据环境下的数据治理需求分析
governance国内外在数据治理模型和框架研究方面,已经取 得了丰硕的成果,基本都形成了相对完整的数据治理 理论体系、涉及到数据治理的原则、范围和方法等。同时基于原则驱动的数据治理思想、以治理为核心的数 据管理方法论、数据治理成熟度模型等都已经得到了 广泛的认可。但对通信、金融、互联网等领域的大数据 应用实践的深入分析可知,还存在许多传统数据治理 无法解决的问题。
传统的数据治理要求设立数据治理委员会,负责
第4期杨琳等:大数据环境下的数据治理框架研究及应用67
促成因素
|内外部环境I __________
战略组织架构
f 元数据管理主数据管理i I _____________________I I 数据生命周期管理丨I _____________________I
[数据应用与服务创新丨I _____________________I
图1
大数据环境下的数据治理框架
数据治理的目标是战略一致、风险可控、运营合规 和价值实现。在大数据治理过程中,战略一致应满足 组织持续发展的需要,大数据既是组织的价值来源,也
是风险来源,有效的大数据治理能够避免决策失败和 经济损失,降低合规风险。同时组织的运营应符合国
内外法律法规和行业相关规范,运营合规可以帮助组
织有效地提升自身信誉,增强在不同监管环境下的生
存能力和竞争力,最终通过大数据与业务的融合实现
保证数据价值实现。治理保障可以分为促成因素和内外部环境两部 分。促成因素是指对大数据治理成功实施起关键促进 作用的因素,如文化、技术与工具、流程与活动等d 内 外部环境则是大数据治理所处的内部与外部环境,如 政策法规、行业规范、市场需求与竞争力等。大数据治 理要求组织在各个层面都具备大数据治理的意识,并 通过适应大数据环境、技术环境、战略环境等,逐渐形 成自身的大数据治理文化氛围0最终以文化氛围促进 组织对大数据治理的应用实践。同时,大数据治理需 要通过安全基础设施、识别和访问控制、大数据保护等 技术工具来支撑和保障大数据治理的实施工作,以提 高大数据治理的效率,降低大数据治理的成本。组织 需要通过定义、优化业务流程活动来提高用户和大数 据之间的沟通效率,从而保障大数据治理的风险可控、
目标、治理保障、治理域、治理方法论四个部分,全面展 现大数据治理的总体框架和内容,以全局视角描述大 数据治理的所涉及的各个方面。该框架以治理目标为 指导,充分考虑数据治理过程中的保障因素,建立数据
治理域,基于 E D M ( Evaluate -Direct -Monitoi •:评估-指 导-监督)的治理方法论,能够系统化地构建数据治 理的体系,从而满足数据完整性、正确性、一致性要求, 为大数据的应用创新和价值创造提供支撑,保障数据 安全隐私并满足合规性要求。大数据环境下的数据治 理框架如图1所示p
治理目标
治理保障 治理域 治理方法论
建立数据治理的制度和流程,大数据环境下则提出了 更高的要求,需要数据质量管理、数据安全管理、数据 风险和合规管理等管理体系的协同,实现以应用带动 管理,以管理保障应用,最大程度地体现了数据为业务 带来的价值C 5具体到数据治理域,传统的数据治理构 建了基于主数据、元数据、数据规范的数据仓库管理系 统,实现了应用级别的数据质量管理。但无法满足大 数据环境下所面临的海量、异构、多源的组织级数据整 合、数据业务化和应用创新的需求,需要在数据战略、 组织和架构层面,对数据质量建立组织级的管理制度、 流程和规范,建立信息化部门和业务部门共同参与的 企业级的数据质量保障体系,另一方面,数据与业务 的结合为业务洞察、业务创新带来了新的机遇,但也带 来数据误用和滥用的风险,需要在成本和业务创新之 间建立基本的应用保障措施,满足战略一致性的需求, 建立自顶而下的数据治理体系和策略_
由上述分析可知,在大数据环境下,数据治理的主 要问题和挑战聚焦在以下几个方面:
(1)
数据标准不统|大数据中的半结构化和非
结构化数据大大增加了企业在元数据管理和主数据管 理上的困难。目前组织缺乏统标准化的元数据、主 数据定义标准,不同组织定义的数据标准各不相同,这 有碍于系统间信息的共享,使组织资源的利用率比 较低&
(2)
数据质量问题严重:大数据的实时性要求,需
要组织提高数据的访问效率,减少数据传输,这就迫使
组织将相同的信息在不同系统之间进行冗余存放&但
由于数据的更新存在滞后,容易造成冗余数据不一致,
而给数据质量带来更多问题。
(3) 数据安全隐私凸显:大数据的挖掘分析、开放 共享在增强数据应用价值的同时,也增加了数据的
透 明程度,尤其是将数据集中在一个大环境时,一
些敏感
隐私的数据就有可能被泄露或非法使用,这给数据的
安全与隐私保护带来更加严峻的挑战。
3面向大数据的数据治理框架
通过对大数据环境下的数据治理需求分析可知,
数据标准化、数据质量管理、数据安全与隐私保护等过 程中存在的问题是组织在?F 展数据治理时面临的首要 挑战。为了更好地解决这些问题,组织需要重点关注 对元数据管理、主数据管理、数据质量管理和数据安全 隐私与合规等方面的治理。因此,本文从大数据应用 和创新的视角提出数据治理的框架,该框架包括治理
i
数据质量管理
I
________I
職
i
揞
I
齡
数
据安全与合规
68计算机应用与软件2017 年服务创新和价值创造。
治理域描述了组织在开展数据治理活动时应该关 注的治理对象,主要包括战略、组织、架构、元数据
管 理、主数据管理、数据生命周期管理、数据质量管理、数 据安全与合规、数据应用与服务创新。战略、组织、架 构是大数据治理自上而下的顶层设计。通过顶层设 计,组织可以站在较高的战略点上,统筹协调各方面因 素,整体地、系统地解决组织数据管理与应用中的问 题,它是实现治理目标的重要保障。大数据战略在组 织战略规划中占有重要地位,组织在制定大数据战略 时,应以大数据的服务创新和价值创造为最终目标,根 据业务模式、组织架构、文化、信息化程度等因素进行 战略规划。组织应该根据其自身情况建立大数据治理 组织结构,通过明确组织的角和职责,以落实大数据 战略,提高组织协同性。元数据管理和主数据管理是 数据标准化层面的治理,从基础上保障数据的完整性、规范性和一致性。大数据环境下的数据生命周期管理 应从降低成本转向有效地管理和使用大数据,并基于 大数据采集、存储、整合、处理与分析、应用与呈现、归 档与销毁的全生命周期,进行持续优化的管理。大数 据环境下的数据质量管理要求组织对业务重点和整体 战略进行调整的同时,更加关注对数据质量治理能力 的提高,以及数据在清洗后的整合、分析和价值利用。大数据的开放与共享将传统数据的安全隐私与合规问 题显著放大,故大数据环境下的数据安全与合规管理 要求组织建立有效的大数据安全规范和策略,以确保 大数据资产在使用过程中具有适当的认证、授权、访问 和审计等控制措施,从而满足大数据利益相关者的隐 私与合规要求[1°]。大数据的核心价值是持续不断地 应用数据并创新服务,为组织创造价值,这是大数据治 理与数据治理最显著的区别。
数据治理的方法论是评估、指导、监督,即E D M模 型。在大数据治理过程中,治理主体通过评估实
施过 程及实施后的效果,全面深入了解大数据治理当前的 状态和差距,为大数据治理领导层提供更准确的决策,并通过对大数据治理工作进行持续改进和优化,确保 达到组织的预期目标。同时,治理主体通过指导治理 战略和策略的准备与实施,监控组织对数据管理和应 用的绩效,来保障大数据治理的有效开展。治理方法 论意义重大,是大数据治理工作可持续发展的重要抓 手,它不仅能够提高组织对大数据治理风险控制的能 力,满足社会和行业的监管需要,更有助于实现数据的 商业价值和社会价值。4大数据治理的应用分析
大数据在政府治理领域的应用创新成为近年来关 注的热点,基于大数据的科学决策、精细管理、精准服 务将成为常态,大大推动政府管理理念和社会治理模 式进步。
本节将结合大数据治理在政府决策中的应用,聚 焦科学性、前瞻性、准确性等方面的需求,提出大数据 治理在政府决策重点应用,通过提高数据质量保障政 府正确决策、监督数据应用过程中的合规性,防止数据 滥用造成的安全风险和隐私泄露。基于数据治理的应 用分析可以分为规划、治理实施、评估优化三个阶段。
(1)规划阶段:大数据应用主管部门评估政府构数据管理和应用的现状,明确大数据治理的目标是 开放共享政府数据与社会数据(运营合规、风险可 控),在政府决策中发挥大数据的优势和作用,支撑政 府智能决策(价值实现)。充分考虑政府数据目前存 在的“不愿开放、不敢开放、不会开放”以及社会
外部 数据有待进一步汇聚等问题。在数据共享与开放必要 性得到认可等促成因素的促进下,制定“需求导向、统 筹规划、统一标准、确保安全”的战略方针,构建了跨 机构、跨部门的治理组织,并明确组织角和职责、机 制,指导数据治理的实施。
(2)治理实施阶段:各级政府机构配合大数据用主管部门,关注治理域中的元数据管理、主数据管 理、数据质量管理、数据安全与合规,提出政务数据的 标准化要求,促进政务信息系统的互联互通,提升数据 质量;统筹规划政务数据共享与开放,建立政府数据共 享目录,逐步开放政务数据,营造数据共享与开放的社 会氛围;着手建立符合法律、规范和行业准则的数据合 规管理体系,保障数据开放和应用过程中的合规、合法。
(3)评估优化阶段:大数据应用主管部门对治实施结果进行评估分析,对尚未达到目标要求的指标 制定改进措施,以监督指导治理工作的实施,优化治理 结果并持续评估和改进。
综上,面向政府决策的大数据治理实施流程如
图2所示。
由图2可知,面向政府决策的数据治理通过规划、实施和评估三个阶段,建立了一套持续改进的管理机 制,包含一系列机制和流程,能够促进大数据在政府决 策中有效、高效、合理的利用,达到大数据的安全合规、风险可控和价值实现的目标。
第4期杨琳等:大数据环境下的数据治理框架研究及应用69
图2
面向政府决策的大数据治理流程
5结语
大数据时代,数据即服务(D A A S )是未来的必然
趋势p 数据治理能够优化和提升数据,保证数据的质 量、安全与隐私等,推动数据的服务创新和价值创造。 本文在相关数据治理研究成果的基础上,围绕大数据 环境数据治理的需求,提出了基于目标驱动的大数据 治理框架,聚焦治理保障、治理域和治理方法的研究。 以全局视角来描述数据治理框架的应用,并结合政府 决策领域的大数据治理进行了分析。该框架能够帮助 组织深入理解数据治理的全貌、指导数据治理的应用 和实践。作为一个新兴研究和应用领域,数据治理拥 有广阔的应用前景,是组织实现数据服务创新和价值 创造的重要支撑。正因如此,大数据环境下的数据治 理研究和应用任重而道远,需要更多组织和学者不断 地深入研究和探索。
参考文献
[
1 ]张义祯.树立大数据治理意识[J ].中国科技奖励,2014
(12) :75 -75.[2]
王宇德.企业大数据治理研究[J ].互联网天地,2014,
1(1) :20 -24.
[3] 王玮.大数据时代的商业银行数据治理研究[J ].中国金
融电脑,2013(7) :36 -38.
[4] 王忠,殷建立#大数据环境下个人数据隐私治理机制研
究——
基于利益相关者视角[J ].技术经济与管理研究,
2014(8) :71 -74.[5] 张绍华,潘蓉,宗宇伟.大数据治理与服务[M ].上海:上
海科学技术出版社,2016.
[6 ] ISO 38500. Corporate governance of information technology
[S ]. Geneva : International Organization for Standardization , 2008.
[7 ] Data Governance Institute. The DGI data governance frame
work [R ]. USA :DGI,2009.[8 ] ISACA : COBIT 5. Enabling information [S ]. USA : Infor
mation Systems Audit and Control Association ,2013.
[9 ] IBM Corporation. IBM Data Governance Council Maturity Mod
el : Building a roadmap for effective data governance [ R ]. USA:IBM Corporation,2007.
[10] Sunil Soares. Big data governance : an emerging imperative
[M ]. USA : MC Press Online,2012.
(上接第10页)
[12] Szalay A S,Bell G C,Huang H H ,et al. Low-power amdahl- balanced blades for data intensi
ve computing [ J ]. ACM SIGOPS Operating Systems Review,2010,44(1) :71 -75.[13] Hamilton J. Cooperative expendable micro-slice servers
(CEMS) :low cost,low power servers for internet-scale services [C ] //Conference on Innovative Data Systems Research, 2009:1 -8.
[14] Vasudevan V,Franklin J,Andersen D,et al. FAWNdamental-
ly Power-efficient Clusters [ C ]//Proceedings of the 12th Conference on Hot Topics in Operating Systems. Berkeley, CA.USA jUSENIX ,2009 :22.
[15] Open Compute Project. ARM Server Motherboard Design for
Open Vault Chassis Hardware vO. 3 [ OL ]. http ://www. opencompute. org/wp/wp - content/uploads/2013/01/Open _Compute_Project_ARM_Server_Specification_vO. 3. pdf.[16] Anna Wang. Chinese Internet Giant Baidu Rolls Out World5 s
First Commercial Deployment of Marvell5 s ARM Processor- based Server [ OL ]. http ://developer, baidu. com/en/e- vents. html.
[17] Weil S A, Brandt S A, Miller E L,et al. Ceph:A scalable,
high-performance distributed file system [ C ]//Proceedings of the 7th Symposium on Operating Systems Design and Implementation. USENIX Association,2006:307 -320.
[18] Zhang Q, Zhang W ,Li W ,et al. Cloud Storage System For
Small File Based on P2P[ J]. Journal of Zhejiang University (Engineering Science) ,2013,47(1) :8-14,93.
部:开享廷
外境据共M
内
环数放不
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论