数据中台第9章数据服务体系建设,数据赋能
⼀、数据服务平台
9.1.1 定义与定位
数据服务就是把数据变为⼀种服务能⼒,通过数据服务让数据参与到业务之中,激活整个数据中台,这也是数据中台的价值所在。
数据服务是对数据进⾏计算逻辑的封装(过滤查询、多维分析和算法推理等计算逻辑),⽣成API服务,上层数据应⽤可以对接数据服务API,让数据快速应⽤到业务场景中。
⼤数据统⼀服务接⼝将⼤数据统⼀管理与服务平台上存储的⼤数据进⾏数据封装后,通过统⼀的服务接⼝对内对外提供多种数据服务,包括数据服务的注册、审核、发布、使⽤和监控的全流程管理。
数据资产⾃动⽣成数据查询、数据下载、数据API等多种服务⽅式,并能提供图形化设计器、⾃定义sql的⽅式供业务⼈员进⾏数据和服务编排,快速满⾜⼈员和系统的数据要求。
⼤数据统⼀服务接⼝的类型有
1、数据共享交换服务:数据库接⼝、⽂件接⼝、消息接⼝
数据库接⼝(⽀持主流的多种数据库)、数据库导数Sqoop
⽂件接⼝(⽀持excel、txt、xml等)、下载⽂件,导出⽂件等功能
消息接⼝,kafka和MQ等消息队列推送数据
2、⼤数据搜索查询服务,搜索查询接⼝(搜索引擎、查询分析引擎)
API接⼝查询数据,查询Hbase返回json功能
BI⼯具连接查询报表,数据可视化⼯具,
OLAP即席查询分析:olap引擎Kylin、presto、impala,数据探查分析,机器学习,⼈⼯智能,
⼯具平台是数据中台发挥价值的利器,包括数据开发平台、报表与分析平台、数据挖掘与探索平台、⼈⼯智能平台、数据门户、数据管控平台等。
数据开发平台 :实现⼤数据处理链路全过程的功能开发,包括数据采集加⼯、任务调度、运维监控等,内含丰富的开发组件,⽀持低码开发模式。
报表与分析平台 :提供了数据分析的⼿段及报表展现的途径,为各业务条线提供以数据为⽀撑的报表增值服务。
数据挖掘与探索平台 :为数据科学家、数据分析师、业务⼈员提供稳定、⾼质量的跨主题数据沙箱环境,集成统计分析、知识图谱、NL2SQL 等⼯具集,结合不同的场景积累相对成熟的数据能⼒解决⽅案。
⼈⼯智能平台 :涵盖⼤规模机器学习和深度学习框架,为各类应⽤提供 AI 引擎。
数据门户 :通过统⼀门户实现数据资产的集中管理与数据应⽤的汇集,包括数据资产⽬录和全景图、数据服务能⼒地图、数据应⽤集中展⽰、数据服务接⼝和权限控制等。
数据管控平台 :建⽴了统⼀的企业指标库,有效地管理数据资产,分析数据加⼯关系,绘制数据地图 :发现数据质量问题,⽀持数据标准的规范治理
9.1.2 主要分类
按照数据与计算逻辑封装⽅式的不同,数据服务可分为以下三类:
·基础数据服务:即席查询 ,报表数据。它⾯向的对象是物理表数据,主要⾯向的场景包括数据查询、多维分析等,通过⾃定义SQL 的⽅式实现数据中台全域物理表数据的指标获取和分析。
·标签画像服务:它⾯向的对象是标签数据,主要⾯向的场景包括标签圈⼈、画像分析等,通过界⾯配置⽅式,API接⼝查询以及后台服务查询,实现数据中台全域标签数据跨计算、存储的统⼀查询分析计算,加快数据应⽤的开发速度。
·算法模型服务:⼈⼯智能和机器学习,它⾯向的对象是算法模型,主要⾯向的场景包括智能营销、个性化推荐和⾦融风控等,主要通
过界⾯配置⽅式将算法模型⼀键部署为在线API,⽀撑智能应⽤和业务。
greenplum数据库9.1.3 核⼼价值
数据服务作为补全数据应⽤的最后⼀公⾥,它的核⼼价值有以下4点。
(1)确保数据在业务层的全域流通
数据服务可以对数据中台的全量数据进⾏封装透出,让中台的数据⽀撑数据业务,加速数据业务化的流程;数据业务产⽣的反馈数据可以回流到数据中台中,不断优化现有的数据服务,让数据在业务中持续流动起来。
(2)降低数据接⼝的重复建设
前端不同的数据应⽤对数据的需求有些是类似的,例如客户画像和客户精准营销都对客户的特征标签有需求,通过统⼀的数据服务创建的包含客户特征数据的接⼝,可以通过授权分别提供给画像和营销两个应⽤。与以前的烟囱式开发相⽐,这样做的好处是可以避免数据接⼝的重复建设。通过⼀次创建、多次授权的⽅式交付给前端。
(3)保障数据获取的及时性和稳定⾼效
通过统⼀的数据服务,对于不同业务部门给数据中台提的数据需求,中台管理⽅可以进⾏统⼀规划和分配,从整体上保证资源和需求的协调。同时,通过数据服务中的数据,中台可以及时得到业务上的完整反馈信息,并基于真实数据及时调整:若需要及时的数据,则给予实时性的保障;若需要稳定的数据,则给予可⽤性的保障。
(4)使能数据能⼒扩展
通过统⼀数据中台,不断扩展数据源、优化数据资产建设、扩展数据服务封装⽅式,将数据能⼒进⾏持续扩展,不断给数据业务和数据应⽤提供更多数据价值。
9.2 4种常见的数据服务
数据服务类型是对数据使⽤场景的抽象提炼,可以根据不同的数据使⽤场景,抽象出查询服务、分析服务、检索服务、圈⼈服务、推荐服务、风控服务等多种数据服务类型。这些最⼩化的数据服务可以按需组合在⼀起,构成⼀个复杂的数据服务体系,并通过交互界⾯的封装,形成⼀个数据应⽤产品。
9.2.1 查询服务
查询服务通过⼀个标识(key)查询其所对应的内容,可以附加⼀些条件过滤选项来满⾜检索要求。如常见的根据账号查询其相关的档案信息、根据商品查询其销售信息等,都属于查询服务的应⽤场景。
查询服务具备3个特征,
a.可以根据查询标识快速查询,数据存储在mysql或者ES
b.可以添加过滤项实现查询数据筛选功能
c.⽀持返回结构的分页和排序功能。
【实现过程】
step1:数据接⼊-通过数据库连接或者API把数据连接进来
step2:数据查询-通过传参或者图形化界⾯惊醒查询配置。⼀般设置查询标识和过滤条件。
step3:结果规则配置-对查询的结果进⾏排序和分页等。
step4:能⼒开放-查询的结果⽣成⼀个API供上层应⽤调⽤。
9.2.2 分析服务
分析服务通过各种数据统计分析的⽅法,对数据做任意维度的数据分析挖掘,让数据分析⼈员快速了解数据集的特点,以⽀持数据化运营、分析决策等场景。常见的如BI⼯具、数据化运营中的路径分析、漏⽃模型等,⼤部分是基于这种能⼒来构建的。
分析服务通常具备4⼤特征
【实现过程】
step1:数据接⼊-通过数据库连接或者API把数据连接进来
step2:在线建模-本质上就是构建SQL的过程,在这个过程中通常会提供两种⽅式:1.SQL代码编辑器(⾯向编程⼈员)2.图形化界⾯(⾯向业务⼈员)
step3:能⼒开放-⾃动⽣成API对外开放,注意要加权限管控。
(1)⽀持多源数据接⼊
企业的数据经过清洗加⼯转化成数据资产后,最终通过服务作⽤于业务系统。基于企业异构存储的现状,要求分析服务能够⽀持与Hive、Elasticsearch、Greenplum、MySQL、Oracle、本地⽂件等多种数据源进⾏连接。此外,它应还⽀持公有云和私有云等形式的数据接⼊,从⽽帮助企业实现业务数据的⽆缝对接。
(2)⾼性能即席查询
随着企业数据爆发式增长,每天产⽣的数据量由之前的千级别、万级别,转变成现在的百万级别、千万级别,甚⾄亿级别。这就导致传统的数据分析⼯具遇到分析能⼒的瓶颈,也就是对⼤数据量的分析越来越乏⼒。因此,这就要求分析服务内置⾼速计算引擎,以对数据进⾏⾼性能的即席计算,实现亿级数据毫秒级(⾄多秒级)分析和计算,减少⽤户等待时间。
(3)多维数据分析
在数据驱动决策深⼊⼈⼼的今天,越来越多的企业开始意识到数据的价值,从⽽对数据分析也提出了更⾼的挑战和要求。分析服务除了⽀持常规的数据分析、上卷下钻、切⽚切块之外,还应该⽀持多维的数据分析以及深层次的数据挖掘,发现数据背后的关联关系。
(4)灵活对接业务系统
最终的分析结果会以接⼝的形式输出给业务系统,供业务系统调⽤。为了适配企业多样的业务系统,服务接⼝允许⽤户⾃定义构建。分析服务应提供包括接⼝URL、后端服务类型、接⼝请求模式等在内的多个配置项,以最⼤程度地满⾜业务需求。
9.2.3 推荐服务
推荐服务既所谓的千⼈千⾯,对于不同的⼈对物的⾏为进⾏数据挖掘、构建⼈和物之间的关联关系,
来推荐⼈、物以满⾜⽤户的兴趣爱好,以提升⽤户对业务的黏性。每个⼈打开淘宝看到的内容不⼀样这就是基于⼈的兴趣偏好的推荐服务能⼒。
【三个特征】
a.⽀持不同⾏业的推荐 - 电商⾏业、直播⾏业、内容资讯等
b.⽀持不同场景的推荐 - 同⼀个⾏业中对于推荐的使⽤也存在不同的场景。
c.⽀持推荐效果优化 - 推荐的终极⽬标就是成为⽤户的贴⼼管家。不需要⽤户的思考就推荐出⽤户想要的物品和资讯。
【实现过程】
step1:数据接⼊ - 选择⾏业和场景模板(产品经理⾓度出发整理)
step2:数据接⼊ - 这⾥只原始数据接⼊,通常接⼊的分三类。⼀类是⽤户相关的数据,⼆类是物品相关的数据,三类是关系类数据(⽤户和物品发⽣关系的数据)。
step3:参数设置 - 通过参数设置可以便捷的配置推荐的模型结构、样本指向、⽬标设定、输⼊输出格
式等参数,推荐模型既会在设定的参数下开始⾃动化训练运⾏,直到模型稳定下来后,产出推荐结果或稳定的推荐模型。
step4:能⼒开放 - 通过模型训练之后产⽣⼀个可以调⽤的推荐API,该API⽀持传⼊ID参数,实时和离线计算之后,将适配该⾏业或场景下的推荐数据输出返回到相应的上层应⽤系统中去。
step5:数据回流 - 上层使⽤推荐服务提供的数据,产⽣的效果数据回流到推荐模型,通过不断的修正推荐模型,⼤⼤提⾼推荐的准确度。
9.2.4 圈⼈服务
各⾏各业都设计到⼴告营销,如何到对的⼈推⼴⼴告成了⼤数据场景要解决的问题,圈⼈服务应运⽽⽣,通过⼈圈选服务,通过API的刑事对接应⽤上层的营销系统,从⽽实现营销服务精确触达。通过提供⼈圈选服务,帮助服务使⽤者从全量⽤户数据中基于标签组合筛选出符合指定特征的⼈,并以API的形式对接上层的营销系统,从⽽实现营销⼴告的精准触达,最终达到⽼客户召回、休眠客户激活等运营⽬的。
(1)⽀持⼈圈选
圈⼈服务的核⼼在于⼈圈选,通过SQL代码或标签取值组合等多种⽅式,实现⼈查,帮⽤户
到对的⼈。
(2)⽀持⼈计量
营销部门或⼴告公司使⽤圈⼈服务圈选出⽬标⼈后,往往还要考虑⼈量是否符合预期,因为预算有限,不可能⽆限量或者不计成本地对⼈进⾏营销。因此在通过条件圈选后,系统需要能快速计算出符合条件的⼈量,如果数量多于预期,则建议继续追加条件圈选更精准的⼈;如果数量少于预期,则建议放宽筛选条件,或者继续圈选其他合适⼈。
(3)⽀持多渠道对接
⼈圈选并计量测算,确认是业务⽅所需⽬标⼈后,需要能够将⼈名单导出到相应的下游系统。最简单的名单导出⽅式是先下载⽂件,再由业务⼈员导⼊相应的业务系统中。当⼈名单量达到千万甚⾄上亿级,或⼈圈选需要⾃动化对接时,需要将⼈名单直接对接到短信系统、投放接⼝、营销活动系统等。
构建“圈⼈服务”的数据处理过程
(1)数据接⼊:圈⼈服务的第⼀步是接⼊⼈数据,⽤户可以通过⽂件、数据库、API等多种⽅式导⼊数据。
(2)⼈圈选圈⼈服务的本质其实是数据查询分析的过程,根据⽤户输⼊的条件,返回符合相应条件的⼈数据。针对不同的使⽤场景,通常会提供多种圈⼈⽅式,以满⾜不同类型客户的需求。
⾯向开发⼈员,可以提供SQL代码编辑器进⾏圈选。开发⼈员直接在代码编辑器中编写要查询的SQL语句,实现⼈圈选。
⾯向业务⼈员,可以提供图形化界⾯进⾏圈选。业务⼈员通常对代码了解不多,所以直接通过界⾯拖曳标签,勾选计算逻辑的⽅式,能⼤⼤降低他们的学习成本。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论