3.4数据预处理(二) - 数据清洗(Data Cleaning)

简介 由于数据源在实际生活中千奇百怪,因此不经任何处理就进入数据库的数据很可能违背数据质量三要素的要求。用这样的数据在进行后续的数据挖掘,其可靠性更加堪忧。虽然在数据挖掘中,均有过程用于处理缺失数据或异常值,但是这不过是在避免建模的过拟合。如若希望尽可能小让缺失值、噪声等脏数据影响数据挖掘的结果,更有效的方法应是提高数据质量,即进行数据清理过程。 一句话解释版本: 数据清洗就是通过缺失值处理,噪声
相关文章
相关标签/搜索