数据挖掘-挖掘频繁模式、关联和相关性:基本概念和方法

挖掘频繁模式、关联和相关性:基本概念和方法数据库

频繁模式(frequent pattern)是频繁地出如今数据集中的模式(如项集、子序列或子结构)。ide

例如,频繁地同时出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集。布局

一个子序列,如首先购买PC,而后是数码相机,再后是内存卡,若是它频繁地出如今购物历史数据库中,则称它为一个(频繁地)序列模式。spa

一个子结构可能涉及不一样的结构形式,如子图、子树或子格,它可能与项集或子序列结合在一块儿。若是一个子结构频繁地出现,则称它为(频繁的)结构模式。设计

对于挖掘数据之间的关联、相关性和许多其余有趣的联系,发现这种频繁模式起着相当重要的做用。此外,它对数据分类、聚类和其余数据挖掘任务也有帮助。事务

1.基本概念

频繁模式挖掘搜索给定数据集中反复出现的联系。内存

1.1购物篮分析

频繁项集挖掘的一个典型例子是购物篮分析。该过程经过发现顾客购买过商品之间的联系,分析顾客的购物习惯。这种关联能够帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们制定更好的营销策略。ci

分析结果能够帮助设计不一样的商店布局。it

一种策略是:常常同时购买的商品能够摆放近一些,以便进一步刺激这些商品同时销售。数据挖掘

另外一种策略:把同时购买的商品摆放在商店两端,可能诱发买这些商品的顾客一路挑选其余商品。

购物篮分析也能够帮助零售商规划什么商品降价出售。若是顾客趋向于同时购买计算机和打印机,则打印机的降价出售可能既促使购买打印机,又促使购买计算机。

每种商品有一个布尔变量,表示该商品是否出现。每一个购物篮能够使用一个布尔向量表示。能够分析布尔向量,获得反映商品频繁关联或同事购买的购买模式。这些模式能够用关联规则(association rule)的形式表示。

购买计算机也趋向于购买杀毒软件,能够使用如下关联规则表示:

Computer => antivirus_software[support = 2%; confidence = 60%]

关联规则的支持度为2%,意味着所分析的全部事务的2%显示计算机和杀毒软件被同事购买。

置信度60%意味着购买计算机的顾客60%也购买了杀毒软件

规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。它们分别反映所发现规则的有用性和肯定性。若是关联规则知足最小支持度阈值和最小置信度阈值。这些阈值能够由用户或领域专家设定。

1.2频繁项集、闭项集和关联规则

I = {I1, I2, I3, ... , Im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每一个事务T是一个非空项集,使得 T ⊆ I。每一个事务都有一个标识符,称为TID。设A是一个项集,事务T包含A,当且仅当A ⊆ T。关联规则是形如 A→B的蕴含式,其中A⊂I,B⊂I,A不为空,B不为空,而且A∩B不为空。

规则A→B在事务集D中成立,具备支持度s,其中s是D中事务A∪B(即集合A和B的并或A和B两者)的百分比。它是几率P(A∪B)。

Support(A→B) = P(A∪B) = P(A&B)

规则A→B在事务集D中具备置信度c,其中c是D中包含A的事务同时也包含B的事务的百分比。这是条件几率P(B|A)。

Confidence(A→B) = P(B|A) = P(A&B)/P(A)

同时知足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。

项的集合称为项集。包含k个项的项集称为k项集。集合{computer, antivirus_soft-ware}是一个2项集。项集的出现频度是包含项集的事务数,简称为项集的频度、支持度计数或计数。

Support(A→B) 定义的项集支持度有时称为相对支持度,而出现频度称为绝对支持度。若是项集I的相对支持度知足预约义的最小支持度阈值(即I的绝对支持度知足对应的最小支持度计数阈值),则I是频繁项集(frequent itemset)。

通常而言,关联规则的挖掘是一个两步的过程:

(1)找出全部的频繁项集:根据定义,这些项集的每个频繁出现的次数至少与预约义的最小支持计数(min_sup)同样。

(2)由频繁项集产生强关联规则:根据定义,这些规则必须知足最小支持度和最小置信度。 

相关文章
相关标签/搜索