数据挖掘:理论与算法 笔记(1)

基础概念: (1)数据清洗是耗神的,原因有信息不完整,噪点(比如工资为-1元),前后不一等问题。 (2)数据缺失的原因有:设备故障,采集不当,N/A(Not Apploicable:比如对男性检查宫颈,对学生调查工资) (3)数据缺失的类型:完全随机缺失,有区分的缺失(女性不愿意说出体重),不完全随机缺失 处理数据缺失的方法: (1)Ignore (2)Fill possible number(再
相关文章
相关标签/搜索