Spoon:集成开发环境linux
Kitchen:做业的命令行运行程序,能够经过Schell脚原本调用windows
Pan:转换的命令行程序服务器
Carte:轻量级的HTTP服务,后台运行,监听HTTP请求来运行一个做业工具
主要用于ETL设计阶段。oop
做业和转换能够在图形界面里执行,但这只是在开发、测试和调试阶段。在开发完成后须要部署到实际运行环境中,在部署阶段Spoon就不多用到了。
在部署阶段,通常须要经过命令行执行,须要把命令行放入到Shell脚本中,并定时调度这个脚本。Kitchen和Pan命令行工具主要就用于这个阶段,用于实际的生产环境中。测试
Carte服务用于执行一个做业,就像Kitchen同样。但和Kitchen不一样的是,Carte是一个服务,一直在后台运行,而Kitchen只是运行一个做业就退出。
Carte是Kettle集群中的一个重要构件块。集群能够将单个工做或转换分红几个部分,在Carte服务器的多个计算机上并行执行,所以能够分散工做负载。命令行
特别注意:不一样版本的kettle
和hadoop
存在兼容性问题。因此必定要注意版本之间的兼容性,下文会介绍具体的查询方法。设计
OS: Windows 10
jdk: jdk-1.8.0_121
kettle: pdi-ce-6.1.0.1-196调试
OS: CentOS_6.5_x64
jdk: jdk1.8.111
hadoop: hadoop-2.6.5日志
社区版:http://community.pentaho.com/
收费版:http://www.pentaho.com/product/data-integration
本教程使用的为社区版
将下载的文件pdi-ce-6.1.0.1-196.zip
解压(由于kettle是免安装的因此至此安装就完成了:))
<property> <name>dfs.permissions</name> <value>false</value> </property>
进入目录\plugins\pentaho-big-data-plugin
编辑文件plugin.properties
active.hadoop.configuration=cdh55
根据具体状况设定。
进入目录plugins\pentaho-big-data-plugin\hadoop-configurations\cdh55
将服务器上hadoop/etc/hadoop/
下的core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
复制到该目录下。
填写完成后以下图
注意:我之所填写master
是由于我已经在主机的hosts
文件里添加了映射。具体操做为编辑hosts
,在最后一行追加(具体内容按照本身的实际状况修改)
192.168.32.100 master 192.168.32.101 slave1 192.168.32.102 slave2
若是不配置hosts
能够直接写NameNode
的IP地址,可是对应的配置文件也须要修改。
从图中能够看出User Home Directory Access
是没有经过测试的,可是在实际使用中并不影响。
解决办法:经过查看日志发现,这里所说的User Home Directory是指windows用户的用户名,由于我没有在hdfs上建立windows用户admin的文件夹,因此会测试没法经过。只须要在hdfs上建立/user/admin目录便可解决这个问题。
2017-08-17 22:05:20 星期四