阿里云DataWorks数据集成(DataX)架构
&;实践分享
大数据etl工具有哪些导读阿里云DataWorks数据集成是DataX团队在阿里云上的商业化产品致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据挪动才能和繁杂业务背景下的数据同步解决方案。目前已经支持云上近3000家客户单日同步数据超过3万亿条。DataWorks数据集成目前支持离线50种数据源可以进展整库迁移、批量上云、增量同步、分库分表等各类同步解决方案。2020年度更新实时同步才能支持10种数据源的读写任意组合。提供MySQLOracle等多种数据源到阿里云MaxComputeHologres等大数据引擎的一键全增量同步解决方案。今天跟大众沟通内容是数据集成DataX的架构以及在使用数据集成这款产品经过中遇到的一些问题以及经历共享。
今天的介绍会围绕下面几点展开
为什么需要数据集成阿里云数据集成大事记阿里云数据集成产品定位以及业务支撑情况阿里云数据集成DataX设计核心思路阿里云数据集成DataX架构阿里云数据集成数据同步-核心亮点阿里云数据集成解决方案系统阿里云DataWorks 数据集成关系智能实时数仓解决方案例如▌为什么需要数
据集成数据集成的应用场景
首先为什么需要数据集成在大数据场景下数据集成主要是
解决哪些核心问题我将其分为以下四个场景
第一个场景就是搬站上云。搬站上云主要用来对接业务数据库完成初始化数仓比方用户需要把自己的云下数据库快速
平安地迁移到云上存储并做进一步的业务分析如线下Mysql、Oracle到云上MaxCompute或是Hadoop中Hive上这既包含了一次性全量数据迁移还包含持续增量数据迁移。
第二个场景是构建实时数仓做流式的数据会聚。主要包含应用产生的日志数据应用产生的消息数据以及应用对接数据
库产生的日志数据数据库的Binlog或归档日志。
第三个场景是平台交融完成云上各个产品之间的数据同步
以及交换。既包含跨云平台之间的数据同步比方从AWS、GCP 到阿里云还包含云平台内部之间的数据交换比方阿里云内
部RDS、MaxCompute、OSS、PolarDB、AnalyticDB、Datahub 等之间的数据同步。
第四个场景是容灾备份。当数据分为冷热数据时需要把冷数据放到归档数据中极大节约本钱。在数仓场景中可以以把云
上计算好的一些结果数据回流到数据库中效劳于在线数据应用。
以上是数据集成主要支撑的四个典型的大数据场景。
数据集成的角以及地位
数据集成在整个大数据数仓建立中的角以及地位是什么简单概括为6个模块第一个是数据源里面包含了各种关系型数据库、文件存储、大数据存储、消息队列等。这些异构的数据源可以通过统一的数据集成平台来将异构网络的异构数据源统一抽取到数据仓库平台在数据仓库平台中完成数据会聚进展统一的数据分析。分析后的结果数据仍可以通过数据集成回流到在线数据库为在线业务、在线应用提供数据查询。除此之外还可以利用一个承上启下的产品-数据效劳对接数据应用制作相关报表、大屏、应用等。
综上所述我们知道数据集成在整个数据仓库开发建立经过中起到了非常关键的作用只有通过数据集成将异构数据源统一汇总到数据仓库中才有后序的数据分析、数据效劳、数据应用等。
▌阿里云数据集成大事记
阿里云数据集成是为解析决数据仓库中这些经典问题而出
现的。阿里云数据集成是一款有历史渊源的产品。2020年度伴随着阿里巴巴数据平台事业部成立当即推出了DataX的1.0以及2.0版本但当时大众对于这款产品还没有过多解析。在2021年度数据集成才能登陆阿里云公有云、专有云开场正式对外提供效劳相应着DataX3.0版本发布。并且于2016年度阿里巴巴将数据同步引擎DataX开源到社区助力大数据ETL生态建立。2018年度DataX有了一个比拟大的架构晋级将公有云、专有云、阿里内部功能统一建立DataIntegration 效劳进一步优化了开发效率节约了运维本钱。2019年度在公有云将数据集成才能商业化2020年度发布数据集成的实时同步才能可以支持数据实时传输并且提供了一些实时同步
场景解决方案。
总之阿里云数据集成是大数据平台上下云的核心枢纽可以
将不同业务系统中数据互相打通实现数据自由离线或者实
时的流动。其致力于提供复杂网络环境下丰富的异构数据源之间高速稳定的数据挪动才能和繁杂业务背景下提供数据
同步解决方案。
▌阿里云数据集成产品定位以及业务支撑情况阿里云数据
集成产品定位
图中是阿里云数据集成产品的核心功能特性列表大众在自
己制作或者选用数据集成产品的时候可以着重解析这些点
做选型参考。
首先是离线以及实时全覆盖这款产品既支持传统的离线同
步也支持及时高效的实时同步第二点针对各种复杂网络均
做了相应的解决方案以及产品化才能无论数据源在公网、IDC 还是VPC等数据集成都具备成熟的方法可以提供连接到数据源的网络解决方案第三点因为DataX是一个云上产品同时需要具备一些平安的管控策略我们将开发以及消费环境隔离
进展数据源权限平安控制可共享独享资源组保障高可用第
四点得益于这种可扩展性架构DataX可以支持繁多的异构数据源离线支持50种数据源实时支持10种数
据源读写任意组合其中涵盖了关系型数据库、MPP、NoSQL、文件储存、消
息流等各大种类第五点在大数据场景中往往存在特定场景
的通用需求比方整库迁移、批量上云、增量同步、分库分表、一键实时全增量我们将这些通用需求抽象为数据集成的解
决方案进一步降低用户使用数据集成门槛最后我们拥有一
个非常完备的运维监控体系可以进展流量控制、脏数据控制可以对资源组进展监控另外还可以设置任务告警支持、短信、邮件、钉钉。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论