spark-wordcount详解、数据流向和spark-map系列算子

spark-wordcount详解、数据流向:     单个maptask:首先通过sc.textfile()将数据读取出来放在linesRdd里,然后通过flatMap算子进行拆分到wordsRdd中,然后通过map算子对单词进行计数到countRdd中,然后通过reduceBykey对所有countRdd中单词出现的次数进行大聚合到resultRdd中,最后调用action算子触发程序执行。
相关文章
相关标签/搜索