算法:数据预处理

原因:数据存在噪声,数据缺失值,数据不一致,数据库庞大,异种数据源等问题。 目的:解决上述问题,提高数据挖掘的质量。 方法:数据清理,数据集成,数据归约,数据变换和数据离散化。 数据质量:准确性、完整性、一致性、时效性、可信性,可解释性。 一、数据清理 1.    缺失值:许多元组的属性没记录值(可能缺失,可能故意留白后期填写。) (1)忽略元组:适用于元组有多个缺少值,每个属性缺失值的百分比变化
相关文章
相关标签/搜索