许多商业企业运营中的大量数据,一般称为购物篮事务(market basket transaction)。表中每一行对应一个事务,包含一个惟一标识TID。
利用关联分析的方法能够发现联系如关联规则或频繁项集。
关联分析须要处理的关键问题:html
二元表示
没按过对应一个事务,每列对应一个项,项用二元变量表示算法
项在事务中出现比不出现更重要,所以项是非对称的的二元变量。
项集(Itemset):包含0个或多个项的集合,若是包含k个项,则称为k-项集。
事务的宽度:事务中出现的项的个数
支持度数(Support count):包含特定项集的事务个数,项集X的支持度数为\(\sigma(X) = |{t_i | X \subseteq t_i, t_i \in T}|\),其中T为事务集合
关联规则(association rule):如\(X \to Y\)的蕴含表达式,其中X和Y是不相交的项集,\(X \cap Y = \varnothing\)。关联规则的强度能够用支持度(support)和置信度(confidence)度量。支持度肯定规则能够用于给定数据集的频繁程度,而置信度肯定Y在包含X的事务中出现的频繁程度。支持度s和置信度c:
\[ s(X \to Y) = \frac{\sigma(X \cup Y)}{N} \]
\[ c(X \to Y) = \frac{\sigma(X \cup Y)}{\sigma(X)} \]
使用支持度和置信度缘由:ide
在解析关联分析的结果时,应当当心,规则作出去的推论并没必要然蕴含因果关系。它只表示规则前件和后件中的项明显地同时出现。另外一方面,因果关系须要关于数据中缘由和结果属性的知识,而且一般涉及长期出现的联系。性能
关联规则发现:给定事务集合T,关联规则发现是指找到支持度大于等于阈值minsup而且置信度大于等于minconf的全部规则。
挖掘关联规则的一种原始方法是计算每一个可能规则的支持度和置信度,可是代价很高。所以提升性能的方法是拆分支持度和置信度。由于规则的支持度主要依赖于\(X \cup Y\)的支持度,所以大多数关联规则挖掘算法一般采用的策略是分解为两步:spa
关联分析:
数据挖掘之关联分析一(基本概念)
数据挖掘之关联分析二(频繁项集的产生)
数据挖掘之关联分析三(规则的产生)
数据挖掘之关联分析四(连续属性处理)
数据挖掘之关联分析五(序列模式)
数据挖掘之关联分析六(子图模式)
数据挖掘之关联分析七(非频繁模式)htm