Kettle框架搭建以及java代码调⽤作业和转换
Kettle框架搭建
下载安装
⽬前Kettle的最新版本是7.1。
由于Kettle 是采⽤java 编写,因此需要在本地有JVM 的运⾏环境。
安装完成之后,点击⽬录下⾯的 或者spoon.bat 即可启动kettle 。在启动kettle 的时候,会弹出对话框,让⽤户选择建⽴⼀个资源库。
资源库:是⽤来保存转换任务的, 它⽤以记录我们的操作步骤和相关的⽇志,转换,JOB 等信息。⽤户通过图形界⾯创建的的转换任务可以保存在资源库中。资源库可以是各种常见的数据库,⽤户通过⽤户名/ 密码来访问资源库中的资源,默认的⽤户名/ 密码是admin/admin.资源库并不是必须的,如果没有资源库,⽤户还可以把转换任务保存在 xml ⽂件中。
配置环境变量
前提是配置好Java的环境变量,因为他是java编写,需要本地的JVM的运⾏环境
配置Java环境变量可参考:
java实战(⼀)———–jdk环境配置
在系统的环境变量中添加KETTLE_HOME变量,⽬录指向kettle的安装⽬录:D:kettledata-integration(具体以安装路径为准)
新建系统变量:KETTLE_HOME
变量值: D:kettledata-integration(具体以安装路径为准,Kettle的解压路径,直到所在⽬录)
选择PATH添加环境变量:
变量名:PATH
java设置环境变量的方法代码变量值:% KETTLE_HOME%;
spoon操作界⾯
打开spoon.bat⽂件所在位置如下图
spoon基本操作界⾯
在spoon的操作界⾯中可以创建转换和⼯作
Kettle的基本概念
作业(job)
负责将[转换]组织在⼀起进⽽完成某⼀块⼯作,通常我们需要把⼀个⼤的任务分解成⼏个逻辑上隔离的作业,当这⼏个作业都完成了,也就说明这项任务完成了。
1.Job Entry:⼀个Job Entry 是⼀个任务的⼀部分,它执⾏某些内容。
2.Hop:⼀个Hop 代表两个步骤之间的⼀个或者多个数据流。⼀个Hop 总是代表着两个Job Entry 之间的连接,并且能够被原始的Job Entry 设置,⽆条件的执⾏下⼀个Job Entry,
直到执⾏成功或者失败。
3.Note:⼀个Note 是⼀个任务附加的⽂本注释信息。
转换(Transformation)
定义对数据操作的容器,数据操作就是数据从输⼊到输出的⼀个过程,可以理解为⽐作业粒度更⼩⼀级的容器,我们将任务分解成作业,然后需要将作业分解成⼀个或多个转换,每个转换只完成⼀部分⼯作。
1.Value:Value 是⾏的⼀部分,并且是包含以下类型的的数据:Strings、floating point Numbers、unlimited precision BigNumbers、Integers、Dates、或者Boolean。
2.Row:⼀⾏包含0 个或者多个Values。
3.Output Stream:⼀个Output Stream 是离开⼀个步骤时的⾏的堆栈。
4.Input Stream:⼀个Input Stream 是进⼊⼀个步骤时的⾏的堆栈。
5.Step:转换的⼀个步骤,可以是⼀个Stream或是其他元素。
6.Hop:⼀个Hop 代表两个步骤之间的⼀个或者多个数据流。⼀个Hop 总是代表着⼀个步骤的输出流和⼀个步骤的输⼊流。
7.Note:⼀个Note 是⼀个转换附加的⽂本注释信息。
创建简单的转换,⾸先配置数据库连接,⼀个转换中可以创建多个数据库连接,⽽且是不同类型的数据库也都可以,⽅便从⼀个数据库中抽取数据到另⼀个数据库中
左上⾓“核⼼对象”选项卡。展开输⼊选择->表输⼊,将表输⼊拖⼊到右侧控制台,表输出也是做相同的操作。
将⿏标放在表输⼊上停⼏秒会出现如图所⽰的选择框,建⽴表输⼊与表输出的连接关系。
中会显⽰简单的sql语句,可以⼿动修改相应的sql语句。
Excel表输出:选择要输出的⽂件名。扩展名可以是xls也可以是xlsx
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论