数据挖掘之关联分析三（规则的产生）

时间 2019-11-08

标签数据挖掘关联分析规则产生繁體版

原文原文链接

规则产生

忽略那些前件和后件为空的规则，每一个频繁k项集可以产生$2(2^k-1)$个关联规则。将频繁项集Y划分为两个非空子集X和Y-X，使得$X \to Y-X$能知足置信度阈值，就能够获得知足条件的规则。
在计算规则的置信度时并不须要再次扫描事务数据集，由于产生规则的频繁项集和它们的子集也都是频繁项集，咱们在提取频繁项集时，已经计算过它们的支持度计数，于是不须要再扫描全部的数据集。html

基于置信度的剪枝

置信度不像支持度那样具备任何单调性。可是具备如下定理
定理：若是规则$X \to Y-X$不知足置信度阈值，则形如$ X' \to Y-X'$的规则也必定不知足置信度阈值，其中X'是X的子集。X'的支持度计数根据置信度计算公式可推理获得算法

Apriori算法中规则的产生

Apriori算法使用一种逐层方法来产生关联规则，其中层数对应于规则的构建中的项数。初始提取规则后件只有一个项的全部高置信度规则，而后使用这些规则来产生新的候选规则。spa

若是$ {acd} \to {b} $和$ {abd} \to {c} $是两个高置信度的规则，则经过合并两个规则的后件产生候选规则，若是格中的任意结点置信度较低，则根据定理应该剪去该枝，假设$ {bcd} \to a $具备较低的置信度，则根据定理的条件剪去左右子集的枝。htm

数据挖掘之关联分析一（基本概念）
数据挖掘之关联分析二（频繁项集的产生）
数据挖掘之关联分析三（规则的产生）
数据挖掘之关联分析四（连续属性处理）
数据挖掘之关联分析五（序列模式）
数据挖掘之关联分析六（子图模式）
数据挖掘之关联分析七（非频繁模式）blog