数据分析与挖掘(数据预处理)

在数据挖掘中,海量的原始数据存在着大量不完整(有缺失)、不一致、又异常的数据,影响数据挖掘建模的执行效率,甚至导致数据挖掘失败,所以数据的预处理尤为重要。 一、数据清洗 主要是删除原始数据中的无关数据、重复数据、噪声数据等,处理缺失值、异常值。 处理缺失值的方法分为三类;删除数据、数据插补、不处理。 其中插补方法包括:均值、中位数、众数、使用固定值、最近邻插值、回归方法、插值法等等 异常值处理:在
相关文章
相关标签/搜索