数据预处理之文件转换kettle:多数据源合并

【实验目的】

利用Kettle追加流等组件,完成多个数据源的合并。

【实验原理】

通过字段选择选择要最终输出的字段到下一个步骤追加流(实验中必须保证每个数据源经过字段选择后,输出的字段都是一致的),再通过追加流设置2个数据源的合并顺序,然后通过追加流进行多个据源的合并。

【实验步骤】

一、创建转换

1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。

 

2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为:excel input,Modified Java Script Value,select values, Append streams,excel writer。组件支持自定义名称。

 

二、可视化编程

1. “Excel输入,Excel输入2,Excel输入3”的配置:

 

2.“JavaScript代码,JavaScript代码2,JavaScript代码3”的配置: 

 

 3.“字段选择,字段选择2,字段选择3”的配置:

 

 4.“追加流,追加流2”配置:

 

 

 

5. “Microsoft Excel 输出2”配置:

 

三.运行程序:

点击开始运行程序,在弹出的对话框中,选择运行该程序。

 

运行结果:

四.实验结果

输入数据

(1) 课程信息表.

输出数据:

“Microsoft Excel 输出”输出数据: