数据预处理之文件转换kettle:数据质量统计

【实验目的】

利用Kettle分组“JavaScript代码字段选择组件,实现数据质量统计。

【实验原理】

“JavaScript代码对表格的记录进行质量分类,然后通过字段选择生成带质量标志位字段的数据,再通过分组统计数据的质量问题。

【实验步骤】

一、创建转换

1.点击,在下拉菜单中点击选择,这样创建了一个转换文件。我们点击,重命名该转换文件,保存在某个指定的路径。

2.我们在新建的转换文件上开始可视化编程。需要的组件如下图所示。选择好组件好,按下图所示连接好组件。主要组件为excel input,Script,Select Values,Group By,excel writer。组件支持自定义命名。

二、可视化编程

1. “Excel输入”的配置:

 

 

 2.“JavaScript代码”的配置:

 

 3.“字段选择”的配置:

 4.“Microsoft Excel 输出”配置:

 

 5.“分组”配置:

 6. “Microsoft Excel 输出2”配置:

 

 

三.运行程序:

点击开始运行程序,在弹出的对话框中,选择运行该程序。

 运行结果:

 

四.实验结果

输入数据

(1) 课程信息表.

输出数据:

“Microsoft Excel 输出”输出数据:

“Microsoft Excel 输出2”输出数据: