缺失值的处理

目前有三类处理方法:1. 用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。2. 用其他变量做预测模型来算出缺失变量。效果比方法1略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建模的。一般情况下,介于两者之间。3. 最精确的做法,把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个
相关文章
相关标签/搜索