【19】Flink实战案例开发(⼀):数据清洗1、应⽤场景分析
参考徐崴⽼师Flink项⽬
数据清洗【实时ETL】
数据报表
1.1、数据清洗【实时ETL】
1.1.1、需求分析
针对算法产⽣的⽇志数据进⾏清洗拆分
1. 算法产⽣的⽇志数据是嵌套⼤JSON格式(json嵌套json),需要拆分打平
2. 针对算法中的国家字段进⾏⼤区转换
3. 最后把不同类型的⽇志数据分别进⾏存储
1.1.2、架构图
bootstrap项目1.2、新建项⽬⼯程
创建⼀个⼤的项⽬,⽤Maven来维护
每个flink需求,即job创建⼀个 ”Module”
第⼀步:
第⼆步:
在⼯程项⽬l中添加依赖管理,在其中管理各个需求⼦项⽬的依赖版本
在依赖管理中添加⼯程项⽬相关依赖:
第三步:
在DataClean module中的l中添加依赖(不需要加⼊版本):
2、DataClean代码开发
开发介绍采⽤的是 Java 代码实现的,完整⼯程代码及 Scala 代码的实现详见底部 GitHub 代码地址2.1、MyRedisSource实现
功能: ⾃定义 Redis Source
由于存储的是 国家⼤区和编码的映射关系
类似于 k-v ,所以返回 HashMap 格式⽐较好
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论