数据预处理之文件转换kettle:使用参照表清理数据

【实验目的】

利用Kettle自定义常量数据流查询计算器”“ Microsoft Excel 输出组件,实现参照表清理数据。

【实验原理】

利用流查询将对比参照表和源数据,再利用计算器计算出相似度

【实验步骤】

一、创建转换

1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。

2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为“自定义常量数据”,“流查询”,“计算器”“ Microsoft Excel 输出”,组件支持自定义命名。

二、可视化编程

1. “自定义常量数据”的配置:

 

 2.“流查询”的配置:

 3.“自定义常量数据 2”的配置:

 

 4.“计算器”配置:

 5.“Microsoft Excel 输出”配置:

 

三.运行程序:

点击开始运行程序,在弹出的对话框中,选择运行该程序。

 运行结果:

 

 

四.实验结果

输入数据

(1) 源数据.

 参照表:

 

输出数据:

“Microsoft Excel 输出”输出数据: