数据挖掘之关联分析四（连续属性处理）

时间 2019-11-08

标签数据挖掘关联分析连续属性处理繁體版

原文原文链接

处理连续属性

挖掘连续属性可能揭示数据的内在联系，包含连续属性的关联规则一般称做量化关联规则（quantitative association rule）。html

主要讨论三种对连续数据进行关联分析的方法算法

基于离散化的方法
基于统计学的方法
非离散化方法

基于离散化方法

离散化是处理连续属性最经常使用的方法，这种方法将连续属性的邻近值分组，造成有限个区间，例如，年龄属性能够造成以下区间
年龄 $ \in $ [12, 16), 年龄$\in$ [16, 20)……
离散化可使用任意技术（如等区间宽度、等频率、等熵、或聚类）实现。spa

属性离散化一个关键参数时用于划分每一个属性的区间。一般这个参数由用户提供，单可能会遇到下面问题htm

若是区间太宽，则肯能由于缺少置信度而丢失某些模式。
\[ R'_1：年龄\in [16, 20)\to网上聊天=是（s = 4.4\%，c = 84.6\%）\]
尽管具备较高的支持度，可是由于较宽的区间致使规则的置信度都小于阈值。
若是区间太窄，则可能由于缺少支持度而丢失某些模式。
当区间不合适时，可能致使有些规则被分裂成子规则，若是自规则的置信度和支持度都足够高，就能够经过聚类来恢复原来的规则，可是若是置信度或者支持度较低，则不能恢复原来的规则。

处理这些问题的一个方法是经过考虑邻近区间的每一个分组，可是也会致使下面的计算问题blog

计算开销大
提取许多冗余规则，如
\[ R_3：年龄\in [16, 20)\to网上聊天=是 \]
\[ R_4：年龄\in [16, 24)\to网上聊天=是 \]
其中$R_4$是$R_3$的泛化，若是两个规则的置信度值相同，则$R_4$更有趣，由于其涵盖更多的例子。此时$R_3$是冗余的。

基于统计学的方法

量化关联规则能够用来推断整体的统计性质，基于统计学的方法，能够提取以下形式
\[ \{ 年收入 > \$100K, 网上购物 = 是 \} \to 年龄：均值 = 38 \]
规则代表年收入超过￥100K而且按期在网上购物的因特网用户的平均年龄为38岁。事务

规则产生

为了产生基于统计学的量化关联规则，必须制定用于刻画有趣整体段特性的目标属性。保留目标属性，使用上面的方法对数据的其他连续属性和分类属性进行二元化。而后使用已有的算法如Apriori算法从二元化数据中提取频繁项集，每一个频繁项集肯定一个有趣整体段。使用均值、中位数、方差或绝对误差等统计量对目标属性在每一个段内的分布进行汇总。如在上面的例子中经过对频繁项集$ { 年收入 > $100K, 网上购物 = 是 } $ 统计因特网用户平均年龄。此时年龄为目标属性。ci

规则确认

仅当由规则覆盖的事务计算的统计量不一样于由为被规则覆盖的事务计算的统计量时，该量化规则才是有趣的。例如，仅当不支持规则$ { 年收入 > $100K, 网上购物 = 是 } $ 的因特网用户平均年龄显著大于或小于38岁时，上面获得的规则才是有趣的。为了确保该平均年龄差是否具备统计意义，应当使用统计假设检验方法进行检验。文档

考虑量化关联规则$A \to t: \mu$,其中A是频繁项集，t是连续的目标属性，而$\mu$是被A覆盖的事务t的均值。此外，设$\mu'$是未被覆盖的事务的均值，目标检验$\mu$和$\mu'$之间的差是够大于用户设定的阈值$\Delta$。在统计假设检验中，两个相反的假设分别为原假设（null hypothesis）和备择假设（alternative hypothesis）。
假定$\mu<\mu'$，原假设为$H_0: \mu' = \mu + \Delta$，备择假设为$H_1: \mu' > \mu + \Delta$。使用正态分布进行检验，计算统计量
\[ Z = \frac{ \mu' - \mu -\Delta }{ \sqrt[2]{ \frac{s^2_1}{n_1}+\frac{s^2_2}{n_2} } } \]
其中$n_1$和$ n_2 $分别是支持和不支持A的事务个数，$ s_1 $和$ s_2 $是标准差。Z是标准正态分布，均值为0.方差为1.计算获得的Z值和置信水平的阈值$ Z_{\alpha} $进行比较，若是$Z>Z_{\alpha}$，则拒绝原假设，选择备择假设，咱们能够断言该关联规则是有趣的。不然，数据中没有足够的证据证实均值之差具备统计意义。get

非离散化方法

在一些应用中，令分析者感兴趣的不是连续属性的离散区间之间联系，而是连续属性之间的联系。例如文本文档中词的关联，以相同方式变化的集合能够具备想死的支持度值。it

文本挖掘中，分析者更感兴趣的是词之间的联系，如（数据和挖掘）之间的联系，而不是每一个词频的区间关联，如（数据$\in$[1, 4]，挖掘$\in$[2, 3]）。一种方法是将数据变为0/1矩阵，超过某个阈值t记为1，不然为0。尽管该方法能够是分析者利用已有的频繁模式挖掘算法对二元数据进行分析，可是肯定t值是一个很棘手的问题。若是阈值太大，则会失去不少关联，若是过小，则可能有不少错误的关联。

另外一种发现词关联的方法称做min-Apriori。和传统的关联分析相似，项集是词的聚集，而支持度用来度量词之间的关联程度。项集的支持度能够根据对应词的规范化频率计算（规范化是为了确保数据在相同的尺度上）。给定文档中词之间的关联经过获取他们之间的规范化频率最小值获得，如$world_1$和$world_2$之间的支持度为$min(word_1,word_2)$，项集的支持度经过两个词在全部文档中最小支持度的汇集获得。如$min(word_1,word_2) = min(5,3)+\cdots$

min-Apriori中支持度具备如下性质

支持度随词的规范化频率增长而单调递增。
支持度随包含该词的文档数增长而递增。
支持度具备反单调性。支持度项集随项集中词数的增长而单调递减，考虑一对项集{A, B}和{A, B, C}，咱们能够获得$min({A, B}) \geq min({A, B, C})$，从而有$s({A, B}) \geq s({A, B, C})$

数据挖掘之关联分析一（基本概念）
数据挖掘之关联分析二（频繁项集的产生）
数据挖掘之关联分析三（规则的产生）
数据挖掘之关联分析四（连续属性处理）
数据挖掘之关联分析五（序列模式）
数据挖掘之关联分析六（子图模式）
数据挖掘之关联分析七（非频繁模式）