kettlepythonweb_Kettle⼩记(2)--Spoon的使⽤(1)--资源
库的使⽤
2 使⽤Spoon
从官⽹上下载好 Kettle 后,只需解压即可。
解压后,得到data-integration ⽂件夹。进⼊,点击 Spoon.bat 脚本⽂件。
此时,如果你的电脑上之前没有配置过 JDK ,那么程序会报错。记得运⾏前⼀定要配置 Java 的软件开发⼯具包,这也是使⽤ Kettle 的唯⼀要求。
初始界⾯,如下图所⽰:
在Spoon中,⽤户可以使⽤左⾯的组件树,在右⾯的⾯板中设计Transformation和Job的流程,并在Log View⾯板中查看运⾏结果。
2.1 Kettle 资源库管理
本使⽤教程基于当前最新版本(V8.2)编写,较本⼈⼀直在使⽤的版本(V6.0)整整跳过⼀个版本。期间不少
功能都发⽣了改变,就如资源库。为了节省不必要的解释,或者介绍中有什么不对的地⽅,请多多包涵。
2.1.1 资源库类型
V8.2 有三种类型,较V6.0多了⼀种,即Pentaho Repository。另外两种被归类为 Other Repository ,它们分别为 Database Repostitory(数据库资源库)和 File Repository(⽂件资源库)。
Pentaho Repository:是⼀个插件(Kettle企业版中有),实际是⼀个内容管理系统(CMS),它具备⼀个理想的资源库的所有特性,包括版本控制和依赖完整性检查。
Database Repository:把所有设计好的ETLE信息保存在数据库中,包括数据库连接、Job、Transformation和相关配置,这样便于保存、管理以及远程调度。
File Repository:在⼀个⽂件⽬录下定义⼀个资源库,因为Kettle使⽤的是虚拟⽂件系统(Apache VFS)。所以这⾥的⽂件⽬录是⼀个⼴泛的概念,包括了zip⽂件、Web服务、FTP服务。
⽽我们经常使⽤的是 Database Repository 资源库。
2.1.2 新建 Database Repository
1)点击⼯具栏右边的“Connect”,再点击弹出框中的“Other Repository”:
2)选择 Database Repository,点击 Get started:
3)配置连接信息:
4)初次使⽤⽆数据库连接,在此之前最好先创建⼀个数据库连接:
5)创建数据库连接,这⾥选择了⼤家⾮常熟悉的MySQL数据库:
需注意,当点击测试后,初次使⽤应该会报错:不到数据库连接的Jar包。
此时只需,去MySQL官⽹下载mysql-connector-java-5.1.47.jar ,然后将其放置\data-integration\lib ⽬录下,然后重启spoon。
有朋友可能就会说,为什么⼀开始不介绍这部分,否则就⽆需重启 spoon ,再将上⾯的步骤⾛⼀遍了?为什么呢?朋友请您见谅,提前介绍下载、放置Jar包,你肯定只知其然⽽不知其所以然。因为你可能⽤到的不⽌ MySQL,所以也会再次碰到其他数据库的该问题,就不知道为什么了。所以就⿇烦你多操作⼀遍,加深印象吧。
重启后,再次测试,应该就能得到下⾯的弹框了,恭喜喽~~
6)配置成功后,选择 Connect Now:
mysql下载后的初次使用在出现此界⾯之前,其实Kettle是做了⼀些配置⼯作的,主要是Kettle会⾃动在数据库Kettle中创建R_*开头的各种表。这⾥只截取⼀部分以
⽰说明。这些表后⾯如果⽤到,会有相应说明的哦~
7)填写⽤户名和密码,默认为admin/admin:
⼤家可能会奇怪,默认的⽤户名和密码?为了安全我肯定要修改呀。那怎么修改呢?
1)这⾥就⽤到了之前提到的Kettle⾃动在数据库kettle中添加的表:R_USER了。
可以看到该表中有两个⽤户,即admin(管理员)和guest(只读⽤户)。
密码是加密的,加密⽅式我还不清楚,所以通过SQL修改我还不会,哈哈。
2)界⾯修改有点啰嗦:
菜单栏选择“⼯具”=>“资源库”(记得先⽤admin⽤户连接上Database Repository,否则资源库的⼦菜单是置灰的)=>“探索资源
库”或者按快捷键“Ctrl+E”;
在弹框中选择“安全”Tab页,就可以对⽤户进⾏修改、添加和删除了。
到此如何新建Database Repository介绍完了。
连接成功后,我们之后保存的 Job 和 Transformation ,都会直接保存在数据库中。
2.1.3 新建 File Repository
File Repository的创建,跟Database Repository⽐较就相对简单多了,只需填写资源库名称和保存⽂件的相应路径即可:
我这⾥选择的⽬录是本地的,其实应该可以选择局域⽹内的服务器(哈哈~我没有验证过~)
当然Kettle也会在该⽬录下初始化⼀些东西,以便其读取和管理。
其连接⽆语验证,因为仅是把Job和Transformation保存在所创建的⽬录下⽽已。
2.1.4为什么要使⽤资源库
在不连接任何资源库时,所定义的Job和Transformation将只能保存在本地磁盘上,以.kjb和.ktr⽂件的⽅式。
如使⽤资源库,则所定义的Job和Transformation将会存储到资源库⾥。实际上,资源库就是⼀个数据库,如MySQL数据库,⾥⾯存储了Kettle定义的元素的相关元数据。
简单⽽⾔,就是元数据库,⽅便管理与协调⼯作。
如果资源库创建完毕,则资源库的相关信息将存储在⽂件l中,它位于你的缺省home⽬录的隐藏⽬录.kettle中。如在Windows系统中,这个路径就是C:\Users\⽤户名.kettle。
关于前⾯创建Database Repository相关信息的截图:
除了保存⽅式的不同之外,菜单栏与某些选项也有些许区别,这⾥先不⼀⼀介绍了,提醒使⽤时留⼼观察。
好像没有介绍**“Pentaho Repository”**吧?
不是好像,就是没介绍,因为哥没⽤过,哈哈~
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论