DataOps:数据中台的必备底座
DataOps的历史
2014年,Lenny Liebmann提出DataOps[1]的概念,在《3 reasons why DataOps is essential for big data success》这篇⽂章
中,Lenny提出DataOps是优化数据科学和运营团队之间协作的⼀些实践集。
2015年,Andy Palmer[2]将这个理念发扬光⼤,提出了DataOps的四个关键构成,数据⼯程,数据集成,数据安全和数据质量。
大数据etl工具有哪些2017年,Nexla的Jarah Euston把DataOps的核⼼定义为从数据到价值,这个是⾸次把DataOps和业务价值关联起来的定义。
2018年,Gartner把DataOps纳⼊到Data Management的技术成熟度曲线,标志着DataOps正式被业界所接纳并推⼴起来。
DataOps是⼀种协作式数据管理的实践,致⼒于改善组织中数据管理者与使⽤者之间数据流的沟通,集成和⾃动化。
像DevOps⼀样,DataOps也不是⼀成不变的教条,⽽是⼀种基于原则的实践,会影响如何提供和更新数据以满⾜组织数据消费者的需求。
Gartner研究副总裁Nick Heudecker表⽰:“ DataOps是⼀种没有任何标准或框架的新实践。”越来越多的技术提供商在谈论他们的产品时已经开始使⽤该术语,⽽且我们还看到数据和分析团队在关注这⼀概念,DataOps正处于迅速上升的周期。”
DataOps的出现是在DevOps,Agile,Lean的发展基础上,应对企业不断增长的数据分析,数据利⽤的需求的⼀种解决⽅案。
DataOps的定义
DataOps在⾏业⾥的定义有不少,⽐较权威的有以下⼏个:
DataOps (data operations) is an Agile approach to designing, implementing and maintaining a distributed data architecture that will support a wide range of open source tools and frameworks in production。The goal of DataOps is to create business value from big data。[3]
DataOps(数据运营)是以⼀种敏捷的⽅法,⽤来设计、实施和维护分布式数据架构,⽀持⼴泛的开源⼯具和框架,数据运营的⽬的是从⼤数据中获取业务价值。
这个定义中,强调敏捷的⽅法。
DataOps is an automated, process-oriented methodology, used by analytic and data teams, to improve the quality and reduce the cycle time of data analytics.[4]
DataOps是⼀个⾃动的、⾯向流程的⽅法论,被数据和分析团队使⽤,从⽽提⾼质量缩短数据分析的周期。
这个定义中,强调⾃动的⽅式。
DataOps is the function within an organization that controls the data journey from source to value.
DataOps是在⼀个组织中控制数据旅程从⽽产⽣价值的⼀个职能。
这个定义中,强调的是数据旅程和业务价值。
DataOps applies rigor to developing, testing, and deploying code that manages data flows and creates analytic solutions.
DataOps对开发,测试和部署代码进⾏了严格的管理,这些代码管理数据流并创建分析解决⽅案。
这个定义中,强调了对于数据流的管理。
我个⼈觉得下⾯这个图是更加清晰的表达了DataOps的定义的:
DataOps是包括⼈,流程和技术的⼀组体系,⽤来管理代码,⼯具,基础架构和数据本⾝,从⽽实现三个核⼼功能:
将DevOps的敏捷开发和持续集成应⽤到数据领域
优化和改进数据管理者(⽣产者)和数据消费者的协作
持续交付数据流⽣产线
⽽下图则⾼度抽象的体现了DataOps的三要素:持续集成,持续开发,持续部署
为什么需要DataOps
DataOps的出现,从因为数字化转型进⼊了数据为核⼼的智能时代,为了满⾜企业对于数据管理,数据利⽤的三⼤战略趋势:
数据分析民主化/Democratization of Data Analytics
原来数据分析能⼒是企业少数⼈需要掌握和构建的能⼒,⽽现在数据分析已经在⾛向民主化的趋势,任何⼀个岗位都需要数据的⽀撑。所以如何能够让数据和分析能⼒可以⼴泛的被所有背景的⼈所掌握,成为了企业数据部门所追求的⽬标。
⽽传统的数据分析的过程是⾮常复杂的,如下图所⽰:
DataOps要解决的⾸要问题就是构建⼀套体系能够降低⼈们使⽤,利⽤,分析数据的门槛,让所有⼈都能够“玩数据”。
数据技术多元化/Diversification of Data Technology
⼗年以来,数据处理和利⽤的技术(Data-Tech)的发展突飞猛进,从原来的中⼼化的数据仓库,ETL技术,衍⽣到了⼀个繁杂的数据技术体系,细分成多种数据处理领域,⽐如:
数据分析
数据可视化
机器学习
云数据处理
流式数据处理
离线数据处理
统计和数据挖掘
每⼀个领域⼜有多元化的数据处理⼯具,框架,如下图所⽰:
这⼤⼤加剧了数据⼯作者的⼊门的门槛和学习复杂度。
DataOps很重要的⼀个⽬的就是利⽤这个体系,能够降低这个复杂度,让数据⼯作者能够更容易的驾驭这些越来越复杂和多元化的数据技术和⼯具体系。
业务价值精益化/Lean of Business Value
DataOps的收益
DataOps的构建对于企业有很多的收益,总结下来有如下这些点:
提供实时的数据洞察能⼒
加速数据应⽤的构建过程
让数据价值链的每⼀个⾓⾊都能更好,更⾼效的协作
提⾼数据的透明度,从⽽能够更好的产⽣数据创新和增进协作
提升数据和数据服务的可复⽤性
优化数据质量
构建⼀个统⼀的,标准化的,同源的数据协作平台
为了更直观的体现有了DataOps和没有DataOps的区别,下图的对⽐是⼀个很好理解的⽅式:
下图是⼀个典型的传统数据⽣产过程:
从数据源,到主数据,再到运营型数据集市,再到数据仓库,最终进⾏数据分析,整个过程有以下的问题:
重复批量的数据移动
难以管理的硬编码ETL(⼯具类SQL编写的ET)
单体数据架构
业务响应慢
DataOps要构建的数据处理流程是如下所⽰的:
从数据源直接实时获取数据,然后进⼊数据湖,通过流式数据处理,实时数据仓库,规模化的⾃动数据处理过程等⼯具构建分析数据管理闭环,最终输出多元化的数据服务。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论