数据挖掘笔记-关联规则-FPGrowth-2

时间 2020-05-08

标签数据挖掘笔记关联规则 fpgrowth 繁體版

原文原文链接

前面是单机版的实现，如今经过MapReduce来实现FPGrowth算法，主要用了两个MR,具体过程以下：java 一、第一个MR扫描全部数据集统计数据集中的频繁一项集，即每一个项的出现次数。git 二、读取第一个MR产生的文件，对频繁一项集排序，而后上传到HDFS上。github 三、第二个MR扫描全部数据集，并根据第二步产生的排序好的频繁一项集来得出频繁项集。算法第二个MR的Map阶段过程：

>>阅读原文<<