利用Kettle的“自定义常量数据”,“流查询”,“计算器”“ Microsoft Excel 输出”组件,实现参照表清理数据。
利用“流查询”将对比参照表和源数据,再利用“计算器”计算出相似度;
一、创建转换
1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。
2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为“自定义常量数据”,“流查询”,“计算器”“ Microsoft Excel 输出”,组件支持自定义命名。
二、可视化编程
1. “自定义常量数据”的配置:
2.“流查询”的配置:
3.“自定义常量数据 2”的配置:
4.“计算器”配置:
5.“Microsoft Excel 输出”配置:
三.运行程序:
点击开始运行程序,在弹出的对话框中,选择运行该程序。
运行结果:
四.实验结果
输入数据
(1) 源数据.
参照表:
输出数据:
“Microsoft Excel 输出”输出数据: