数据挖掘 自习笔记 第二章 数据处理实践(上)

数据清洗中噪声数据处理

(1)Bin 方法 :经过利用相应被平滑数据点的周围点,对一组排序数据进行平滑。函数

如:有价格数据。.net

首先对价格数据进行排序,而后将其划分红若干高度的bin(即每一个bin包含三个数值)对象

这时既能够利用每一个bin的均值进行平滑。排序

clip_image001

      1. 根据bin均值进行平滑,第一个bin中四、八、15的均值是9,因此能够用9来替换。ip

      2. 根据bin边界进行平滑,利用每一个bin的边界值(最大或最小值)来替换该bin中的全部值。get

(2)聚类方法。类似或向邻近的数据聚合成一块儿造成各个聚类集合,而那些位于这些聚类集合外的数据对象,天然被认为是异常数据。it

(3) 人机结合检查方法。经过人鱼计算机检查结合方法,能够帮助发现异常数据。cli

(4)回归方法。能够利用拟合函数对数据进行平滑。例如借助线性回归方法。float

 

数据集成与转换

数据集成考虑的问题:方法

1. 模式集成

2. 冗余问题。

利用相关分析方法能够帮助发现一些数据冗余状况。例如:给出两个属性,择根据这两个属性的数值分析出这两个属性剑的相互关系。属性A,B之间的互相关系能够根据如下计算公式得到。

clip_image002

A、B是属性中的数据。

A、B减去的,分别是A、B的平均值。

σAσB 分别表示属性A,B的标准方差。

若是r A,B >0, 则属性A,B之间是正关联,A增长,B也增长,反之则是负关联

若是r A,B =0, 则A,B属性相互独立,二者没有关系。

r A,B 绝对值越大,说明A,B关联关系越密。

3.数据值冲突检测与消除。

 

数据转换处理

对于急于距离计算的挖掘,规格化方法能够帮助消除因属性取值范围不一样而影响挖掘结果的公正性。下面是三种规格化方法:

方法1:最大最小规格化方法。该方法对被初始数据进行一种线性转换。

设minA 和 maxA 为属性A的最小和最大值。最大最小规格化方法属性A的一个值v映射为v且有v∈[new_ minA ,new_ maxA],具体映射计算公式以下:

clip_image003

实例:假设属性income的最大最小值分别是12,000元与98,000元,若要利用最大最小规格化方法将属性income的值映射到0至1的范围内,那么属性income的73,600元将被转化为:

clip_image004

方法2:零均值规格化方法。该方法是根据属性A的均值和误差来对A进行规格化。属性A的v值能够经过如下计算公式得到其映射数值v。

clip_image005

其中v减去的是属性A的均值,σA 是方差。这种规格化方法经常使用于属性A最大值与最小值未知;或使用最大最小规格化方法时会出现异常数据的状况。

实例2.2:假设属性income的均值与方差分别是54,000元和16,000元,是用零均值规格化方法将73,000元的属性income映射值为:

clip_image006

方法3:十基数变换格式化方法。该方法经过移动属性A值的小数位置来达到规格化的目的。属性A的v值能够经过如下公式计算映射值v。

clip_image007

其中的j为使max(|v’|)<1 成立的最小值

实例2.3:假设属性A的取值范围是-986到917。属性A绝对值得最大值为986.采用十基数变换规格化方法,就是将属性A的每一个值除以1000(即j=3)便可,所以-986映射为-0.986。

相关文章
相关标签/搜索