⼤数据之路之数据上云解决⽅案(全量)
定义:数据上云⼜称数据采集,数据集成,数据迁移,是⼤数据架构中的最基础也是最根本的⼀环,从性质上来讲属于ETL中的⼀部分操作,即把数据从⼀个地⽅迁移汇总到另外⼀个地⽅。数据上云解决了信息孤岛问题,解决了信息不对称问题,即”车同轨书同⽂“,同时把数据迁移到云计算平台,对后续数据的计算和应⽤提供了第⼀步开⼭之路
难点:
1. 数据上云如何做到在数量上,质量上保持⽆误?
2. 数据上云如何解决不同平台的⽹络,架构等数据兼容性,影射性问题?
3. 数据上云如何做到从云下到云上⾃动调度,如何保证数据变更与云下保持⼀致?
4. 数据上云如何解决云下数据库表结构变化,云下数据变化,云上能及时获取,能及时在平台级做到变更?
5. 数据上云如何针对不同的业务需求做出不同的应对,如何⾯⾯俱到⽽不是过度拟合?
6. 数据上云如何解决后续运维难题?
上云⼯具:数据上云⼯具有很多,不仅有开源的DataX,Kettle,Sqoop等,还有⼀些⼚商⾃研的各种数据采集平台,我们可根据实际需求选择最好的。由于很多数据采集平台都是付费或者与⾃⼰云平台绑定在⼀块的,买了服务才能⽤,⽽且这种平台⼤多数是图形化点击操作,⽆需掌握采集技术原理,只需傻⽠式点点即可,所以这⾥我们讲⼀下更具技术含量的开源采集⼯具,以DataX为例,
篇幅有限,这⾥先讲全量上云
全量上云即在上云的那⼀刹那,把当前数据库形成⼀个全量快照,然后采集上云,所以在传统全量上云中,云下数据库新进来的数据是⽆法采集到的,不过影响也不算⼤。毕竟我们选择全量上云时⼀般都是在凌晨左右,业务量极低,⽽且本⾝全量上云就是离线操作,所以这些新进来的数据第⼆次采集再进来也不迟,如果业务有需求的,可以通过控制时间和采集频率来解决
以oracle - 云 为例
第⼀步:信息配置:由于实际业务表成千上万,我们不可能⼀⼀进⾏json的配置,所以需要采⽤配置⽂件和脚本结合的⽅法:即⾸先配置好数据库,表等配置⽂件,然后通过shell脚本建⽴并发开始平台建表,数据上云
第⼆步:分区合并:可能某些oracle9i数据库上云过程中提⽰快照过旧,这时候就不能再使⽤⾃定义分
区来上云,只能够⽤数据库初始分区进⾏,后续再在云平台进⾏数据合并,把⼀张表的不同分区合成⼀个分区
第三步:数据检测:数据检测主要针对两⽅⾯:数据+质量,数据可以通过脚本来⼀⼀实现检测,但是数据质量,⽐如是否乱码,是否跨⾏等只能通过⾃⼰⼿动来查看
第四步:后续运维:有些业务数据全量上云只需要⼀次,有的可能数据库较⼩,每天都可以全量,这些都要根据实际需求,在云平台或者脚本⾥设置好⾃动调度,还要考虑⾎缘,依赖,以及后续运维的难易程度
云数据库服务
这⾥是数据全量上云的解决⽅案,如需要脚本或者⼯具等请参考我的Github :
感谢观看

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。