PentahoDataIntegration-Kettle⼊门指南
Pentaho Data Integration - Kettle ⼊门指南
PDI(Pentaho Data Integration,或者Kettle)是⼀款开源的ETL⼯具,可以⽤它来对数据进⾏抽取、清洗和转换操作,从⽽获得我们想要的数据。
Kettle
当前最新版本是v7.1,点击绿⾊按钮即可跳转到sourceforge⽹站下载,这⾥默认的提供的下载版本就是最新版的,如果要选择历史版本可以选择合适的版本下载。
Kettle启动
Kettle没有安装包,绿⾊版⽆需安装,下载完成后会得到⼀个zip压缩包,解压后会⽣成⼀个⽂件夹:
这个⽂件夹就是kettle的主⽬录,打开⽂件夹可以看到Kettle的启动脚本和快捷⽅式。Windows系统点击Spoon.bat即可启动,类Unix系统需通过命令的形式启动,我们切换到Kettle主⽬录,然后执⾏spoon.sh脚本,如下:
cd data-integration
./spoon.sh
启动完成界⾯:
Paste_Image.png
运⾏第⼀个转换
在开始第⼀个转换之前我们还得做⼀些准备⼯作,因为选择连接的数据库是MySQL,所以需要MySQL的连接驱动,Kettle默认是没有的,⾄少在7.1还没,所以需要去添加⼀个mysql-connector-java-***.jar,把他放在libswt的对应操作系统⽬录下:
mysql下载之后是个文件夹osx64⽬录下
重新启动kettle。
kettle分转换和作业两种,转换是作业的⼦集,⼀个作业由许许多多转换构成的,双击左侧主对象树下⾯的转换即可添加⼀条转换,先保存下:
然后双击ts1下的DB连接,填写连接名称,连接类型选择MySQL,连接⽅式按需选择,jdbc应该没什么好说的,如果选择jndi就要多提⼀句,本地测试的话需要编辑Kettle主⽬录下的simple-jndi/jdbc.properties配置,如下:
这⾥的填的名称都是/前的名字,之后点击测试按钮可以检测配置是否正确。
配置完数据库连接之后就可以真正开始写⼀个转换了,我们选择核⼼对象,这⾥⾯有许多的转换组件,且帮我们分好了类别,我们可以拖拽他们到主⾯板上:
以上是⼀个转换⽰例,⼀下做⼀个简单说明
清空item表:主要是执⾏⼀条SQL语句:
⾃定义常量数据:定义⼀些需要⽤到的数据,这个不是必须的:
从bas_item表抽取数据:
过滤记录:过滤⼀些⽆效数据
去除不需要字段:这个功能⽐较实⽤,可以给字段改名,删除字段,修改字段格式等
JavaScript代码:⼀些简单的JavaScript代码,主要还是⽤来做数据辨别的
更新item维度表:把抽取出来的数据⽤来更新另⼀张表
最后,可以运⾏这个⽰例来测试了:
顺便提⼀下这⾥可以添加⼀些运⾏转换会⽤到的变量,点击启动即可:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。