关联规则(Association Rules)是反映一个事物与其余事物之间的相互依存性和关联性,若是两个或多个事物之间存在必定的关联关系,那么,其中一个事物就能经过其余事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。算法
关联分析中的关系表现为两种形式:频繁项集——常常同时出现的一些元素的集合;关联规则——表示物品或属性之间可能存在的强关系。spa
①沃尔玛超市的尿布与啤酒;blog
②百度文库推荐相关文档;ci
③淘宝推荐相关书籍文档
和关联规则相关的指标有两个,分别为置信度和支持度。一般会设置置信度和支持度的阈值,当分析获得的关联关系达到二者的阈值时,这样的关联规则被认为是有趣的。数据挖掘
置信度用来度量每一个关联规则在前提条件下结果发生的可能性。对于的关联规则,其置信度计算公式为:io
N(A)表示含A的样本数,N(A,B)表示既含A又含B的样本数。原理
经过置信度,咱们能够知道结果是个例仍是具备广泛性。百度
支持度用来度量包含了关联分析中出现的属性值的样本数占整个数据集的百分比,计算方法以下:书籍
其中N(I)表示数据集I的样本数。
1)生成条目集,条目是符合必定支持度要求的“属性值-值”的组合。
2)使用生成的条目集建立一组关联规则。