《Kettle构建HadoopETL系统实践》⼤数据ETL开发⼯具选择
Kettle的理由
ETL⼀词是Extract、Transform、Load三个英⽂单词的⾸字母缩写,中⽂意为抽取、转换、装载。ETL是建⽴数据仓库最重要的处理过程,也是最能体现⼯作量的环节,⼀般会占到整个数据仓库项⽬⼯作量的⼀半以上。建⽴⼀个数据仓库,就是要把来⾃于多个异构源系统的数据整合在⼀起,并放置于⼀个集中的位置来进⾏数据分析。如果这些源系统数据原本就是相互兼容的,那当然省事了,但是实际情况往往不是如此。⽽ETL系统的⼯作就是把异构数据转换成同构数据。如果没有ETL,就很难对异构数据进⾏程序化分析。
Kettle是⼀款国外开源的ETL⼯具,纯Java编写,⽆须安装,功能完备,数据抽取⾼效稳定。Kettle是Pentaho公司的数据整合产品,它可能是现在世界上最流⾏的开源ETL⼯具,经常被⽤于数据仓库环境,并可⽤来操作Hadoop上的数据。Kettle的使⽤场景包括不同数据源之间迁移数据、把数据库中的数据导出成平⾯⽂件、向数据库⼤批量导⼊数据、数据转换和清洗、应⽤整合等。
⾯对各种各样的ETL开发⼯具,之所以选择Kettle,主要由于它的⼀些鲜明特性。⾸先,很明确的⼀点是,作为⼀款GUI⼯具,Kettle的易⽤性好,编码⼯作量最⼩化。⼏乎所有的功能都可以通过⽤户界⾯完成,提⾼了ETL过程的开发效率。其次,Kettle的功能完备。Kettle 8.3版本⼏乎⽀持所有常见的数据源,
并能满⾜ETL功能需求的各种转换步骤与作业项。第三,Kettle是基于Java的解决⽅案,天然继承了Java 的跨平台性,只要有合适的JVM存在,转换或作业就能运⾏在任何环境和平台之上,真正做到与平台⽆关。最后,Kettle允许多线程与并发执⾏,以提⾼程序执⾏效率。⽤户只需指定线程数,其他⼯作都交给Kettle处理,实现细节完全透明化。大数据etl工具有哪些
节选⾃《Kettle构建Hadoop ETL系统实践》

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。