数据挖掘 自习笔记 第二章 数据处理实践(下)

数据块消减

数据块消减方法主要包含参数与非参数两种基本方法。算法

方法1:回归于线性对数模型。函数

回归与线性对象模型能够用于拟合所给定的数据集。例如:利用自变量X的一个线性函数能够拟合因变量Y的输出,其线性函数模型为:大数据

Y=α+βX (2.5).net

其中公式中系数α,β称为回归系数。也是直线的截距和斜率。这两个系数能够经过最小二乘法计算得到。对象

方法2:直方图ip

直方图是利用bin方法对数据分布状况进行近似,他是一种经常使用的数据消减方法。get

实例2.4:如下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现次数)it

1(2)、5(5)、8(2)、10(4)、十二、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、2八、30(3)变量

上诉数据所造成的直方图如-2.6所示。cli

clip_image001

构成直方图所涉及的数据集划分方法有如下几种:

1. 等宽方法:在一个等宽的直方图中,每一个方条的宽度是相同的。

2. 等高方法:在一个等宽的直方图中,每一个方条中数据个数是相同的。

3. V-Optimal方法

4. MaxDiff 方法

聚类

聚类技术将数据行,视为对象。

采样

采样方法犹豫能够利用一小部分(子集)来表明一个大数据集,从而能够做为数据消减的一个技术方法。

(1) 无替换简单随机采样方法(SRSWOR方法)该方法从N个数据行中随机(每一数据行被选中的几率为1/N)抽取出n个数据行,已构成由n个数据行组成采样数据子集。

clip_image002

(2) 有替换简单随机采样方法(SRSWR方法)该方法也是从N个数据行中每次随机抽取一数据行,但该数据行被选中后它仍将留在大数据集D中,这样最后得到由n个数据行组成采样数据子集中可能会出现相同的数据行。如图2.7

(3) 聚类采样方法。首先将大数据集D划分为M个不相交的“类”;而后再从这M个类中的数据对象分别进行随机抽取,这样就能够最终得到聚类采样数据子集。

clip_image003

(4) 分层采样方法。若首先将大数据集D划分为若干不相交的“层”;而后再分别从这些“层”中随机抽取数据对象,从而得到具备表明性的采样数据子集。

例如:能够对一个顾客数据集按照年龄进行分层、而后再在每一个年龄组中进行随机选择,从而确保了最终得到分层采样数据子集的年龄分布具备表明性。

离散化和概念层次树生成

离散化技术方法能够经过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续取值个数。

clip_image004

手工构造概念层次树比较费时费力。此外能够经过对数据分布统计分析自动构造或动态完善出概念层次树。

数据概念层次树生成

方法1:Bin方法。利用每一个bin的均值和中数替换每一个bin中的值。循环应用这个操做处理每次操做结果,就能够得到一个概念层次树。

方法2:直方图方法。

例如:在等宽直方图中,数值被划分为等大小区间,如:(0,100]、(100,200]、…、(900,1000]。

方法3:聚类分析方法。聚类算法能够讲数据划分为若干类或组。

方法4:基于熵的离散化方法。

方法5:天然划分分段方法。

例如3-4-5规则能够将数值量分解为相对统1、天然的区间。具体描述以下:

(1) 若一个区间包含三、六、七、9个不一样值,则将该区间(包含三、六、9不一样值)分解为三个等宽小区间;而将包含7个不一样值分解为分别包含2个、3个和2个不一样值得小区间(也共是三个)

(2) 若一个区间包含二、四、8个不一样值,则将该区间分解为四个等宽小区间。

(3) 若一个区间包含一、五、10个不一样值,则该区间分解为五个等宽小区间。

实例2.5:假设某个时期内一个商场不一样分支的利润数从-351,976元到4,700,896元,要求利用3-4-5规则自动构造利润属性的一个概念层次树。

设在上述范围取值为5%至95%的区间为:-159,876元至1,828,761元。而应用3-4-5规则具体步骤以下:

(1) 属性的最小最大值分别为:MIN=-351,976元、MAX=4,700,896元。而根据计算结果,取值5%至95%的区间范围为:LOW=-159,876元、HIGH=1,828,761元。

(2) 依据LOW和HIGH及其取值范围,肯定该取值范围应按1,000,000元单位进行区间分解。从而获得:LOW’=-1,000,000元、HIGH’=2,000,000元。

(3) 因为LOW’与HIGH’之间有3个不一样值,即(2,000,000 -(-1,000,000))/1,000,000=3。将LOW’与HIGH’之间区间分解为三个等宽小区间。它们分别是(-1,000,000元 ~ 0元],(0元~1,000,000元], (1,000,000元~2,000,000元]做为概念书的最高层组成。

(4) 如今检查原来属性MIN和MAX值与最高层区间的联系。MIN值落入(-1,000,000元 ~ 0元],所以调整左边界,对MIN取整后得-400,000元,因此调整为(-400,000元 ~ 0元],而因为MAX值不在最后一个区间。因此新建区间(2,000,000元~5,000,000元],因此这样的概念树最高层最终包含四个区间。它们是(-400,000元 ~ 0元],(0元 ~ -1,000,000元],(1,000,000元 ~ 2,000,000元],(2,000,000元 ~ 5,000,000元]

(5) 对上述分解所得到的区间,应用3-4-5规则进行分解。构成第二层区间组成内容。即:

clip_image006

类别概念层次树生成。

类别数据是一种离散的数据。构造类别属性的概念层次主要方法有:

(1) 属性值的顺序关系已在用户或专家制定的模式定义说明。如:街道<城市<省<国家。

(2) 经过数据聚合来描述层次树。主要是手工构造的方法。如:{安徽、江苏、山东}属于华东地区。

3) 定义一组属性但不说明其顺序。用户能够简单将一组属性组织在一块儿便构成一个层次树。但没有说明这些属性相互关系。

相关文章
相关标签/搜索