在现实社会中的数据每每存在噪声数据、缺失值和不一致数据的问题。为了提升数据挖掘工做的效率和准确性,须要使用数据清理、数据集成、数据归约和数据变换等方法对数据进行预处理操做。函数
数据质量的三个要素是:准确性、完整性和一致性。工具
数据清理试图填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致。blog
对于缺失值,一般包含如下一些作法:排序
噪声数据是被测量的变量的随机偏差或方差。下面列举了一些“数据光滑”的技术。数据挖掘
1.分箱方法:效率
分箱方法经过考察数据的周围的值来光滑有序数据值。下边图表示了“用箱均值” 和 “用箱边界” 两种光滑手段,将有序的9个数字排序后放入3个箱子内。基础
2.回归:变量
用一个函数拟合数据来光滑数据。例如,线性回归是指找到拟合两个属性的最佳直线。方法
3.离群点分析:im
经过聚类来检测离群点,通常认为,落在簇以外的点就是离群点。
数据清理过程的第一步是误差检测。若是进行误差检测呢? 首先应该了解元数据信息。例如,了解某个数据属性的均值、中位数、标准差等。第2步就是数据变换(纠正误差)了,可使用专门的工具,或者ETL来完成转换步骤。
数据集成式合并来自多个数据源的数据,有效的数据集成能够减小数据集的冗余和不一致问题。
1. 实体识别问题:来自多个源的的等价实体如何才可以匹配上 ?
2. 数据冗余问题: