2. 数据挖掘入门之数据清洗

数据清洗作用是利用有关技术如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据。主要包括缺失值处理,异常值处理,数据分桶,特征归一化/标准化等流程 1. 缺失值处理 不处理: 针对xgboost等树模型,有些模型有处理缺失的机制,所以可以不处理。 删除该列: 如果缺失的太多,可以考虑删除该列 插值补全: 均值、中位数、众数、建模预测、多重插补,通过感知补全或矩阵补全等高维映射
相关文章
相关标签/搜索