2022年中国大数据分析平台行业研究报告大数据丨研究报告
核心摘要:
行业界定:大数据分析平台逐渐由产品态转向集成态,行业边界模糊。在技术架构上,主要包含数据采集与存储、计算、分析与决策三个层级。在OLAP之上融合了深度学习等技术,在提升数据分析深度和广度的同时,也极大增加了数据服务在业务侧的低门槛和友好性,满足用户运用数据分析驱动业务发展的需求。
市场情况:尽管行业边界泛化,市场参与者众多,但按照部署模式、架构分类及能力补给,可分为以下五类:1)以云上数据湖方案为主的公有云厂商;2)以本地化大数据分析平台为主的传统软件服务商;3)提供轻量化数仓架构的数据库/数仓厂商;4)为数据应用层提供服务能力的软件供应商;5)提升数据应用能力的人工智能厂商。行业市场整体呈现竞合状态。
架构选型:搭建平台前用户首先需要明确自身的数据体量和业务场景需求。在明确大数据分析平台需要具备的基本功能后,再决定平台搭建过程中使用的大数据处理框架和工具。在分层架构中,数据分析层的组件选型和整体搭建十分关键,尤其是存储引擎的选型直接决定了离线、在线、实时三大场景的支撑和算力效率的高低。
趋势洞察:传统架构下的湖仓分体引发数据孤岛,造成实施、运维和成本问题。湖仓一体架构在数据和查询层面形成一体化架构,突破实时性和并发度、集规模受限、非结构化数据无法整合、建模路径冗长、数据一致性弱等瓶颈。同时,平台融合AI 自主学习和自适应能力,增强用数人员的分析和决策能力。
行业界定
驱动业务的全场景数据分析平台,提供实时、多维的数据分析和智能决策
大数据分析平台,是企业用户在大数据环境下用于分析与决策的平台。按技术架构划分,主要包含数据收集与存储、数据计算、数据分析与决策三个层级。从服务边界来看,大数据分析平台概念小于数据中台,强调平台的数据分析与决策能力,弱化了数据本身的规划、治理与服务;在OLAP之上,又融合了深度学习等技术,在提升数据分析深度和广度的同时,也极大增加了数据服务在业务侧的低门槛和友好性。企业通过构建大数据分析平台,聚拢各业务系统数据,打通全渠道组织各业务维度,用数据分析驱动业务,满足企业级宽表实时分析、实时BI 报表分析、用户行为分析、自助分析、 AI 智能分析等全方位需求。
技术沿革
平台技术架构持续更新迭代,由离线处理向实时分析演进
架构剖析中国在线编程
基于 Hadoop 分析架构的流程原理:
各类结构化数据通过采集管道进入Kafka,Spark 实时消费Kafka 的数据,写入集内的 HDFS,RDS 数据库中的数据通过Spark 每天一次全量扫表同步至 HDFS。HDFS存储汇总用户数据,对数据库数据定期执行 snapshot。
基于 Hadoop 分析架构的优缺点:
优点:借助 Hadoop 集的高并发能力,实现百 TB 到 PB级数据的离线计算和处理,同时数据存储在 HDFS 上,存储成本低。
缺点:数据定期入库,数据计算的时效性通常是T+1。
架构剖析
数据库结合 AP 分析引擎架构的流程原理:
将平台架构引入 TP 引擎结合 AP引擎实现实时分析平台,各类结构化数据同步至分析引擎后便可进行交互分析。
数据库结合 AP 分析引擎架构的优缺点:
优点:舍弃了传统离线大数据架构,实现实时批量计算,在GB 到100TB 级别的计算有了很大提升,BI 人员无需等待 T+1的离线计算后得到最终结果,大幅提升数据资产的商业价值。
缺点:在处理百 PB 级以上数据时,ClickHouse架构的扩展能力、复杂场景计算和存储成本相对 Hadoop 方案较弱。
平台技术架构持续更新迭代,产品在云上落地和升级架构剖析

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。