spark-wordcount详解、数据流向和spark-map系列算子

时间 2021-01-21

原文原文链接

spark-wordcount详解、数据流向: 单个maptask:首先通过sc.textfile（）将数据读取出来放在linesRdd里，然后通过flatMap算子进行拆分到wordsRdd中，然后通过map算子对单词进行计数到countRdd中,然后通过reduceBykey对所有countRdd中单词出现的次数进行大聚合到resultRdd中，最后调用action算子触发程序执行。