数据挖掘之关联分析一（基本概念）

时间 2019-11-08

标签数据挖掘关联分析基本概念繁體版

原文原文链接

许多商业企业运营中的大量数据，一般称为购物篮事务（market basket transaction）。表中每一行对应一个事务，包含一个惟一标识TID。

利用关联分析的方法能够发现联系如关联规则或频繁项集。
关联分析须要处理的关键问题：html

从大型事务数据集中发现模式可能在计算上要付出很高的代价。
所发现的某些模式多是假的，由于它们多是偶然发生的。

二元表示
没按过对应一个事务，每列对应一个项，项用二元变量表示算法

项在事务中出现比不出现更重要，所以项是非对称的的二元变量。
项集（Itemset）：包含0个或多个项的集合，若是包含k个项，则称为k-项集。
事务的宽度：事务中出现的项的个数
支持度数（Support count）：包含特定项集的事务个数，项集X的支持度数为\(\sigma(X) = |{t_i | X \subseteq t_i, t_i \in T}|\)，其中T为事务集合
关联规则（association rule）：如\(X \to Y\)的蕴含表达式，其中X和Y是不相交的项集，\(X \cap Y = \varnothing\)。关联规则的强度能够用支持度（support）和置信度（confidence）度量。支持度肯定规则能够用于给定数据集的频繁程度，而置信度肯定Y在包含X的事务中出现的频繁程度。支持度s和置信度c:
\[ s(X \to Y) = \frac{\sigma(X \cup Y)}{N} \]
\[ c(X \to Y) = \frac{\sigma(X \cup Y)}{\sigma(X)} \]
使用支持度和置信度缘由：ide

支持度很低的规则只能偶然出现，支持度一般用来删除那些无心义的规则。还具备一种指望的性质，能够用于关联规则的发现。
置信度度量经过规则进行推理具备可靠性。对于给定的规则，置信度越高，Y在包含X的事务中出现的可能性越大。置信度也能够估计Y在给定X的条件下几率。

在解析关联分析的结果时，应当当心，规则作出去的推论并没必要然蕴含因果关系。它只表示规则前件和后件中的项明显地同时出现。另外一方面，因果关系须要关于数据中缘由和结果属性的知识，而且一般涉及长期出现的联系。性能

关联规则发现：给定事务集合T，关联规则发现是指找到支持度大于等于阈值minsup而且置信度大于等于minconf的全部规则。
挖掘关联规则的一种原始方法是计算每一个可能规则的支持度和置信度，可是代价很高。所以提升性能的方法是拆分支持度和置信度。由于规则的支持度主要依赖于\(X \cup Y\)的支持度，所以大多数关联规则挖掘算法一般采用的策略是分解为两步：spa

频繁项集产生，其目标是发现知足具备最小支持度阈值的全部项集，称为频繁项集（frequent itemset）。
规则产生，其目标是从上一步获得的频繁项集中提取高置信度的规则，称为强规则（strong rule）。
一般频繁项集的产生所需的计算远大于规则产生的计算花销。

关联分析：
数据挖掘之关联分析一（基本概念）
数据挖掘之关联分析二（频繁项集的产生）
数据挖掘之关联分析三（规则的产生）
数据挖掘之关联分析四（连续属性处理）
数据挖掘之关联分析五（序列模式）
数据挖掘之关联分析六（子图模式）
数据挖掘之关联分析七（非频繁模式）htm