No.4大数据入门 | MR实践:WordCount之本地测试与集群运行

上周我们搭建好了hadoop环境,接下来我们进行一些MapReduce实践。 本次测试是对一篇英文文章进行单词计数,统计每一个单词出现的总次数并输出结果。 注:图片来源:八斗学院 思路如上图: →input:文章 →将文章的每一行按照空格切分为列表.strip().split(’ ') →读取列表元素(单词) →对读取到的每一个单词进行标记word1 1 →排序相同的单词 →统计每一个单词的总数并
相关文章
相关标签/搜索