数据清洗-缺失值处理

为什么需要清洗数据?   我们拿到的数据,无论是结构化的、半结构化的还是非结构化的数据,都是一个天生的畸形儿,从出生的那一刻就带来一身“疾病”。常常面临的问题主要包括,但不仅仅是,以下问题:   数据不完整 经常遇见比如人物属性字段值:性别,姓名,年龄,学历等,有缺失情况。一条记录,常常不是缺胳膊就是少腿,你还不能直接把它枪毙掉。   数据有重复 所有字段的值都相等的重复值是一定要剔除的,根据不同
相关文章
相关标签/搜索