数据的加载ETL的最后一个阶段,它的主要任务将数据从临时数据表或文件中加载到指定的数据仓库中。-般来说,可以通过编写sQL语句和利用加载工具将数据加载到数据仓库中。ETL的数据加载和数据抽取类似,将数据加载到目标数据表或者数据仓库的过程中可分为全量加载、增量加载以及批量加载。详细介绍一下ETL的全量加载、增量加载以及批量加载。
1.全量加载
全量加载指全表删除后再进行全部(全量)数据加载。从技术角度来说,全量加载和增量加载相比,全量加载更简单。一般只需要在数据加载之前将目标表清空,再将源数据表中的数据进行导人。但,由于数据量、系统资源和数据实时性的要求,很多情况下都需要使用增量加载机制。
2.增量加载
增量加载指目标表仅更新源数据表中变化的数据。增量加载的关键在于如何正确设计相应的方法,用于从源数据表中抽取增量的数据,以及变化“牵连”数据(虽没有变化,但受到变化数据影响的数据)。同时,将这些变化的和未变化但受到影响的数据,在完成相应的逻辑转换后更新到数据仓库中。
数据加载的性能和作业失败后可进行恢复重启的易维护性,需要一个有效的增量抽取机制的支持。因为在-一个有效的增量抽取机制,ETL能够将系统中变化的数据按一定的频率准确地进行捕获,并且不会对系统造成太的压力,也不会影响现有的。
ETL的增量加载类似于增量抽取,同样有4种,分别时间戳、日志表、全表对比、全表删除入,具体介绍如下所示。
(1)时间戳,即在表中统--个字段作为时间戳,当联机分析处理(OLAP)系统更新数据时,同时也会时间戳字段值,这时就将更新的数据加载到目标表中。
批量更新sql语句(2)日志表,即在OLAP系统中日志表,数据发生变化时,更新维护日志表内容。
(3)全表对比,即抽取所有源数据,在加载目标表之前先根据主键和字段进行数据比对,有更新的数据就进行更新或入。
(4)全表删除入,删除目标表中的数据,将源数据表中的数据全部加载到目标表中。
3.批量加载
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论