Kettle实现Hdfs资源的上传下载

1、资源库Repository Manager

将写好的做业/转换存储在Mysql中,方便共享。sql

 

2、配置链接

配置Hadoop集群版本环境,Pdi 9.1使用的hdp3.0和cdh 6.1oop

 

 

3、转换

3.1下载集群资源

3.1.1Hive表输入

配置Hive表输入:集群为刚才配置好的,选择对应表+sql 便可blog

3.1.2文本输出,保留到本地

最终会在指定的路径生成文件。资源

 

3.2上传资源到集群

3.2.1文本输入

 

 

3.2.1Hdfs文件上传

4、做业

将关联的转换链接便可,还可实现成功失败邮箱定时等功能文件上传

5、备注

5.1变量

5.2分隔符与封闭符

分隔符切分字段,输入转为文本时,需注意字段中是否有含与分隔符格式内容it

封闭符若为”,则”abcdef”后会自动取出abcdef,会致使丢失咱们须要的””class

5.3CSV格式

该格式有利于字段匹配,但最终输出需记得把表头去除集群