数据预处理之缺失值处理

缺失值产生原因 数据集中部分数据的缺失是一件很头疼的事情,不但增大了数据集的不确定性,也影响了算法的执行。缺失值产生的原因主要有以下几点: 1.有些信息暂时无法获取,或获取信息的成本过高 2.信息遗漏,即人为的原因,如收集信息不认真、忘记填写信息等 3.缺失值本身就不存在,比如单身狗的女朋友 缺失值的影响 1.数据集丢失了大量的信息 2.数据集表现出的不确定性增大,使得获取数据潜在规律的难度加大
相关文章
相关标签/搜索