数据挖掘算法之-关联规则挖掘(Association Rule)

时间 2020-07-06

标签数据挖掘算法关联规则挖掘 association rule 栏目大数据繁體版

原文原文链接

在数据挖掘的知识模式中，关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出，是数据中一种简单但很实用的规则。关联规则模式属于描述型模式，发现关联规则的算法属于无监督学习的方法。前端

1、关联规则的定义和属性

考察一些涉及许多物品的事务：事务1 中出现了物品甲，事务2 中出现了物品乙，事务3 中则同时出现了物品甲和乙。那么，物品甲和乙在事务中的出现相互之间是否有规律可循呢？在数据库的知识发现中，关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说，关联规则经过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。

现实中，这样的例子不少。例如超级市场利用前端收款机收集存储了大量的售货数据，这些数据是一条条的购买事务记录，每条记录存储了事务处理时间，顾客购买的物品、物品的数量及金额等。这些数据中经常隐含形式以下的关联规则：在购买铁锤的顾客当中，有70 ％的人同时购买了铁钉。这些关联规则颇有价值，商场管理人员能够根据这些关联规则更好地规划商场，如把铁锤和铁钉这样的商品摆放在一块儿，可以促进销售。

有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合，但稍微转换一下思考角度，仍然能够像售货数据同样处理。好比人寿保险，一份保单就是一个事务。保险公司在接受保险前，每每须要记录投保人详尽的信息，有时还要到医院作身体检查。保单上记录有投保人的年龄、性别、健康情况、工做单位、工做地址、工资水平等。这些投保人的我的信息就能够看做事务中的物品。经过分析这些数据，能够获得相似如下这样的关联规则：年龄在40 岁以上，工做在A 区的投保人当中，有45 ％的人曾经向保险公司索赔过。在这条规则中，“年龄在40 岁以上”是物品甲，“工做在A 区”是物品乙，“向保险公司索赔过”则是物品丙。能够看出来，A 区可能污染比较严重，环境比较差，致使工做在该区的人健康情况很差，索赔率也相对比较高。

设R= { I1,I2 ……Im} 是一组物品集，W 是一组事务集。W 中的每一个事务T 是一组物品，T R。假设有一个物品集A，一个事务T，若是A T，则称事务T 支持物品集A。关联规则是以下形式的一种蕴含：A→B，其中A、B 是两组物品，A I，B I，且A ∩B=。通常用四个参数来描述一个关联规则的属性：

1 ．可信度（Confidence）

设W 中支持物品集A 的事务中，有c ％的事务同时也支持物品集B，c ％称为关联规则A→B 的可信度。简单地说，可信度就是指在出现了物品集A 的事务T 中，物品集B 也同时出现的几率有多大。如上面所举的铁锤和铁钉的例子，该关联规则的可信度就回答了这样一个问题：若是一个顾客购买了铁锤，那么他也购买铁钉的可能性有多大呢？在上述例子中，购买铁锤的顾客中有70 ％的人购买了铁钉, 因此可信度是70 ％。

2 ．支持度(Support)

设W 中有s ％的事务同时支持物品集A 和B，s ％称为关联规则A→B 的支持度。支持度描述了A 和B 这两个物品集的并集C 在全部的事务中出现的几率有多大。若是某天共有1000 个顾客到商场购买物品，其中有100 个顾客同时购买了铁锤和铁钉，那么上述的关联规则的支持度就是10 ％。

3 ．指望可信度(Expected confidence)

设W 中有e ％的事务支持物品集B，e ％称为关联规则A→B 的指望可信度度。指望可信度描述了在没有任何条件影响时，物品集B 在全部事务中出现的几率有多大。若是某天共有1000 个顾客到商场购买物品，其中有200 个顾客购买了铁钉，则上述的关联规则的指望可信度就是20 ％。

4 ．做用度(Lift)

做用度是可信度与指望可信度的比值。做用度描述物品集A 的出现对物品集B 的出现有多大的影响。由于物品集B 在全部事务中出现的几率是指望可信度；而物品集B 在有物品集A 出现的事务中出现的几率是可信度，经过可信度对指望可信度的比值反映了在加入“物品集A 出现”的这个条件后，物品集B 的出现几率发生了多大的变化。在上例中做用度就是70 ％/20 ％=3.5。

可信度是对关联规则的准确度的衡量，支持度是对关联规则重要性的衡量。支持度说明了这条规则在全部事务中有多大的表明性，显然支持度越大，关联规则越重要。有些关联规则可信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，所以也不重要。

指望可信度描述了在没有物品集A 的做用下，物品集B 自己的支持度；做用度描述了物品集A 对物品集B 的影响力的大小。做用度越大，说明物品集B 受物品集A 的影响越大。通常状况，有用的关联规则的做用度都应该大于1，只有关联规则的可信度大于指望可信度，才说明A 的出现对B 的出现有促进做用，也说明了它们之间某种程度的相关性，若是做用度不大于1，则此关联规则也就没有意义了。

2、关联规则的挖掘

在关联规则的四个属性中，支持度和可信度可以比较直接形容关联规则的性质。从关联规则定义能够看出，任意给出事务中的两个物品集，它们之间都存在关联规则，只不过属性值有所不一样。若是不考虑关联规则的支持度和可信度，那么在事务数据库中能够发现无穷多的关联规则。事实上，人们通常只对知足必定的支持度和可信度的关联规则感兴趣。所以，为了发现有意义的关联规则，须要给定两个阈值：最小支持度和最小可信度，前者规定了关联规则必须知足的最小支持度；后者规定了关联规则必须知足的最小可信度。通常称知足必定要求的（如较大的支持度和可信度）的规则为强规则（Strong rules）。

在关联规则的挖掘中要注意如下几点：

一、充分理解数据。

二、目标明确。

三、数据准备工做要作好。可否作好数据准备又取决于前两点。数据准备将直接影响到问题的复杂度及目标的实现。

四、选取恰当的最小支持度和最小可信度。这依赖于用户对目标的估计，若是取值太小，那么会发现大量无用的规则，不但影响执行效率、浪费系统资源，并且可能把目标埋没；若是取值过大，则又有可能找不到规则，与知识失之交臂。

五、很好地理解关联规则。数据挖掘工具可以发现知足条件的关联规则，但它不能断定关联规则的实际意义。对关联规则的理解须要熟悉业务背景，丰富的业务经验对数据有足够的理解。在发现的关联规则中，可能有两个主观上认为没有多大关系的物品，它们的关联规则支持度和可信度却很高，须要根据业务知识、经验，从各个角度判断这是一个偶然现象或有其内在的合理性；反之，可能有主观上认为关系密切的物品，结果却显示它们之间相关性不强。只有很好的理解关联规则，才能去其糟粕，取其精华，充分发挥关联规则的价值。

发现关联规则要通过如下三个步骤：

一、链接数据，做数据准备；

二、给定最小支持度和最小可信度，利用数据挖掘工具提供的算法发现关联规则；

三、可视化显示、理解、评估关联规则。

三、关联规则挖掘的过程

关联规则挖掘过程主要包含两个阶段：

第一阶段必须先从资料集合中找出全部的高频项目组(Frequent Itemsets)，

第二阶段再由这些高频项目组中产生关联规则(Association Rules)。

关联规则挖掘的第一阶段必须从原始资料集合中，找出全部高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于全部记录而言，必须达到某一水平。一项目组出现的频率称为支持度(Support)，以一个包含A与B两个项目的2-itemset为例，咱们能够经由公式(1)求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时，则{A,B}称为高频项目组。一个知足最小支持度的k-itemset，则称为高频k-项目组(Frequent k-itemset)，通常表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1，直到没法再找到更长的高频项目组为止。

关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小信赖度(Minimum Confidence)的条件门槛下，若一规则所求得的信赖度知足最小信赖度，称此规则为关联规则。

从上面的介绍还能够看出，关联规则挖掘一般比较适用与记录中的指标取离散值的状况。若是原始数据库中的指标值是取连续的数据，则在关联规则挖掘以前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。

4、关联规则的分类

按照不一样状况，关联规则能够进行分类以下：

1.基于规则中处理的变量的类别，关联规则能够分为布尔型和数值型。

布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则能够和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，固然数值型关联规则中也能够包含种类变量。例如：性别=“女”=>职业=“秘书” ，是布尔型关联规则；性别=“女”=>avg（收入）=2300，涉及的收入是数值类型，因此是一个数值型关联规则。

2.基于规则中数据的抽象层次，能够分为单层关联规则和多层关联规则。

在单层的关联规则中，全部的变量都没有考虑到现实的数据是具备多个不一样的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=>Sony打印机，是一个细节数据上的单层关联规则；台式机=>Sony打印机，是一个较高层次和细节层次之间的多层关联规则。

3.基于规则中涉及到的数据的维数，关联规则能够分为单维的和多维的。

在单维的关联规则中，咱们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另外一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。例如：啤酒=>尿布，这条规则只涉及到用户的购买的物品；性别=“女”=>职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。

5. 关联规则挖掘的相关算法

1.Apriori算法：使用候选项集找频繁项集

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，全部支持度大于最小支持度的项集称为频繁项集，简称频集。

该算法的基本思想是：首先找出全部的频集，这些项集出现的频繁性至少和预约义的最小支持度同样。而后由频集产生强关联规则，这些规则必须知足最小支持度和最小可信度。而后使用第1步找到的频集产生指望的规则，产生只包含集合的项的全部规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成全部频集，使用了递推的方法。

可能产生大量的候选集,以及可能须要重复扫描数据库，是Apriori算法的两大缺点。

2.基于划分的算法

Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分红几个互不相交的块，每次单独考虑一个分块并对它生成全部的频集，而后把产生的频集合并，用来生成全部可能的频集，最后计算这些项集的支持度。这里分块的大小选择要使得每一个分块能够被放入主存，每一个阶段只需被扫描一次。而算法的正确性是由每个可能的频集至少在某一个分块中是频集保证的。该算法是能够高度并行的，能够把每一分块分别分配给某一个处理器生成频集。产生频集的每个循环结束后，处理器之间进行通讯来产生全局的候选k-项集。一般这里的通讯过程是算法执行时间的主要瓶颈；而另外一方面，每一个独立的处理器生成频集的时间也是一个瓶颈。

3.FP-树频集算法

针对Apriori算法的固有缺陷，J. Han等提出了不产生候选挖掘频繁项集的方法：FP-树频集算法。采用分而治之的策略，在通过第一遍扫描以后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每一个库和一个长度为1的频集相关，而后再对这些条件库分别进行挖掘。当原始数据量很大的时候，也能够结合划分的方法,使得一个FP-tree能够放入主存中。实验代表，FP-growth对不一样长度的规则都有很好的适应性，同时在效率上较之Apriori算法有巨大的提升。

5、关联规则发掘技术在国内外的应用

就目前而言，关联规则挖掘技术已经被普遍应用在西方金融行业企业中，它能够成功预测银行客户需求。一旦得到了这些信息，银行就能够改善自身营销。如今银行每天都在开发新的沟通客户的方法。各银行在本身的ATM机上就捆绑了顾客可能感兴趣的本行产品信息，供使用本行ATM机的用户了解。若是数据库中显示，某个高信用限额的客户更换了地址，这个客户颇有可能新近购买了一栋更大的住宅，所以会有可能须要更高信用限额，更高端的新信用卡，或者须要一个住房改善贷款，这些产品均可以经过信用卡帐单邮寄给客户。当客户打电话咨询的时候，数据库能够有力地帮助电话销售表明。销售表明的电脑屏幕上能够显示出客户的特色，同时也能够显示出顾客会对什么产品感兴趣。

同时，一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘，而后设置用户有意要一块儿购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售，也就是购买某种商品的顾客会看到相关的另一种商品的广告。

可是目前在我国，“数据海量，信息缺少”是商业银行在数据大集中以后广泛所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能，却没法发现数据中存在的各类有用的信息，譬如对这些数据进行分析，发现其数据模式及特征，而后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。能够说，关联规则挖掘的技术在我国的研究与应用并非很普遍深刻。

近年来关联规则发掘技术的一些研究

因为许多应用问题每每比超市购买问题更复杂，大量研究从不一样的角度对关联规则作了扩展，将更多的因素集成到关联规则挖掘方法之中，以此丰富关联规则的应用领域，拓宽支持管理决策的范围。如考虑属性之间的类别层次关系，时态关系，多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面，即扩展经典关联规则可以解决问题的范围，改善经典关联规则挖掘算法效率和规则兴趣性。算法