数据挖掘笔记-关联规则-FPGrowth-2

前面是单机版的实现,如今经过MapReduce来实现FPGrowth算法,主要用了两个MR,具体过程以下:java 一、第一个MR扫描全部数据集统计数据集中的频繁一项集,即每一个项的出现次数。git 二、读取第一个MR产生的文件,对频繁一项集排序,而后上传到HDFS上。github 三、第二个MR扫描全部数据集,并根据第二步产生的排序好的频繁一项集来得出频繁项集。算法 第二个MR的Map阶段过程:
相关文章
相关标签/搜索