《数据挖掘:理论与算法》学习笔记(二)—数据预处理(上)

数据预处理过程 数据清洗—>数据转换—>数据描述—>特征选择—>特征提取 为什么要进行数据预处理 原始的数据不利于直接进行数据挖掘,因为: 数据不完整 存在错误数据 数据存在重复信息 数据量过大 等等。。。 如何解决丢失的数据问题 进行选择性忽视 人工补全(比如重新收集、经验填充) 自动补全(利用数据的均值等) 等等。。。 离群点(Outlier) 如何对这些离群点进行检测 离群是相对的概念 局部
相关文章
相关标签/搜索