FP-Growth算法的介绍

引言: 在关联分析中,频繁项集的挖掘最经常使用到的就是Apriori算法。Apriori算法是一种先产生候选项集再检验是否频繁的“产生-测试”的方法。这种方法有种弊端:当数据集很大的时候,须要不断扫描数据集形成运行效率很低。 而FP-Growth算法就很好地解决了这个问题。它的思路是把数据集中的事务映射到一棵FP-Tree上面,再根据这棵树找出频繁项集。FP-Tree的构建过程只须要扫描两次数据集
相关文章
相关标签/搜索