etl调度⼯具ctm_数据仓库建设4——ETL可视化运维管理ETL
ETL模块:统⼀调度管理、统⼀监控管理、ETL出错管理、ETL回溯处理等。
大数据etl工具有哪些ETL设计原则:
模块化的系统。将管理控制类模块与具体数据模块严格分开。
统⼀的调度与管理。
⾼效的ETL加载策略。
安全的数据管理与⽤户管理。
便利的消息通知机制。
ETL逻辑架构图
1.操作数据层ETL
将需要处理的数据从业务数据库导⼊ODS层的预处理过程。主要系统的数据量、环境的异构性、数据的加载⽅式、数据的加载策略、ETL执⾏时间、开发⼯具等。
数据加载⽅式:
【增量加载】有时间戳、数据量较⼤,数据产⽣较快的交易流⽔表。
【全量加载】包含时间戳、数据量较⼩、数据产⽣较缓慢的流⽔表。
【全量加载】没有时间戳的业务表,同时增加业务⽇期字段(BIZ_DATA),标识是那⼀天的数据,并根据该字段删除超过期限的数据。数据加载策略:
数据加载窗⼝,有的系统每天数据处理完之后有相应的标志,有的没有(和业务⼈员定好时间),确保采集到的源数据是每天最新的数据。
数据加载顺序:⼀般ODS层ETL没有依赖关系,主要依据是ETL执⾏时间和服务器的性能。采⽤多线程并⾏加载⽅式,使数据采集的效率最⼤化,根据表的容量⼤⼩按照⼤⼩搭配的策略使加载性能最优。
数据采集⼯具:Informatica、kettle等。
重点关注问题:单个ETL的执⾏时间,尤其是执⾏较长的任务。整个ETL的执⾏时间。反复执⾏,观察整个ETL执⾏是否稳定。执⾏完成检查数据是否⼀致。
2.基础层ETL
按照映射⽂档完成ODS层到数据仓库基础层的数据抽取、转换、清洗、加载。主要考虑:数据加载⽅式、数据加载策略、ETL执⾏策略、ETL任务依赖关系、开发⼯具等。
数据加载⽅式:
【增量加载】有时间戳、数据量较⼤,数据产⽣较快的交易流⽔表。
【全量加载】包含时间戳、数据量较⼩、数据产⽣较缓慢的流⽔表。
【全量加载】没有时间戳的业务表,只抽取最新的业务数据。
数据加载策略:
数据加载窗⼝,⼀般在ODS层ETL成功执⾏后⾃动调度执⾏。
数据加载顺序,根据表之间的依赖关系设计ETL任务执⾏顺序,代码表优先加载,业务实体表根据依赖关系设计先后加载顺序。没有依赖关系的任务并⾏执⾏。
数据采集⼯具:Informatica、kettle、存储过程。
重点关注:单个ETL的执⾏时间,尤其是执⾏较长的任务。整个ETL的执⾏时间。反复执⾏,观察整个
ETL执⾏是否稳定。执⾏完成检查数据是否正确,数据量和数据内容,尤其是发⽣过转换的数据。
3.集市层ETL
⾯向应⽤需求。采⽤存储过程对明细数据进⾏细粒度的简单加⼯汇总,形成公共通⽤的轻度汇总数据。采⽤视图或物化视图对轻度汇总数据进⾏更粗粒度的加⼯汇总,形成直接⾯向应⽤的⾼度汇总数据。
加载策略:
数据加载窗⼝:基础层ETL成功执⾏后⾃动调度执⾏。
数据加载顺序:集市层分维度表和事实表。如果采⽤视图形式实现ETL就没有物理上的先后顺序,⼀般先加载维度表,再加载事实表。
事实表和维度表之间如果有依赖关系,按⽣成数据的先后关系加载。没有依赖关系的任务采⽤并⾏执⾏。
关注问题:读取视图数据的时间。EL任务的执⾏时间,尤其是较长执⾏时间的任务。集市层⽬标数据是否正确,包括数据量和数据内容。
4.ETL调度系统
(1)ETL时间窗⼝:⼀般通过事件驱动或时间驱动的策略来调度ETL作业。常见的是凌晨开始,上班前结束。
(2)ETL任务顺序:数据依赖关系和执⾏时间。
(3)ETL执⾏⽇志:调度过程⽇志(主要过程、异常信息),ETL执⾏⽇志(管理记录ETL执⾏信息的⽇志,提供该⽇志查询删除重置的功能),ETL任务详细⽇志(管理ETL任务中的详细事件的⽇志,清洗记录条数,具体操作情况,提供对⽇志的查询删除操作)
(4)ETL异常处理:
异常情况:硬件服务器、存储设备、⽹络异常。操作系统、数据库软件、ETL⼯具异常。源系统数据或采集标志,规定的采集时间发⽣异常。ETL处理过程异常,假死或⽆状态。⼈⼯⼲预或者误操作导致异常。
处理⽅法:监控资源,情况恢复后断点处基础执⾏。终⽌流程,等恢复后重新执⾏。建⽴反复尝试机制(建议三次),⽆法继续终⽌流程。监控资源,查原因,恢复后断点处继续执⾏。回溯数据,重新执⾏流程。
(5)ETL消息通知:将ETL执⾏结果以短信、邮件等⽅式及时发给系统管理员,尤其是异常情况时,并且⽀持与通⽤的、可配置的监控项及监控规则的监控系统进⾏集成。
数据仓库运⾏监控
1. ODS层ETL执⾏情况
2. ODS层数据量准确性
3. EDW层ETL执⾏情况
4. EDW层转码准确性
5. EDW层数据量准确性
6. EDW层ETL执⾏状况
7. 源数据变化情况
报表需求定义
1. 报表名称
2. 报表说明(可选项)
3. 数据源
4. 筛选条件
5. 维度
6. 度量
7. 报表样式
8. 钻取(可选项)
元数据管理
元数据是关于数据的数据。技术元数据:存储数据仓库系统技术细节数据,⽤于开发和管理数据仓库使⽤的数据。业务系统、数据仓库、数据集市的体系结构和模式。数据仓库结构的描述,仓库模式、视图、维、层次结构、导出数据定义、数据集市的位置和内容。
数据质量管理(略)
数据仓库运维管理(略)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论