数据挖掘学习(一)

数据质量通常不完美,存在的问题:噪声、离群点。 数据集的一般特性:纬度、稀疏性、分辨率。 数据集的维度:是数据集中的对象具有的属性数目。低纬度数据往往与中、高维度数据有着质的不同。分析高维数据有事会陷入数据灾难,所以再进行数据与处理时 减少维度很重要。 稀疏性:指的是数据集的属性上大部分的值为0; 分辨率:数据的模式依赖于分辨率,分辨率太高,噪声严重,模式可能被掩藏在噪声中;分辨率太低,则模式可能
相关文章
相关标签/搜索