大数据处理之道(预处理方法)

一:为何要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库须要对高质量的数据进行一致地集成) (3)原始数据中存在的问题: 不一致 —— 数据内含出现不一致状况 重复 不完整 —— 感兴趣的属性没有 含噪声 —— 数据中存在着错误、或异常(偏离指望值)的数据 高维度 二:数据预处理的方
相关文章
相关标签/搜索