大数据求索(3):实战MapReduce

MapReduce 概述 主要用于离线、海量数据运算 WordCount编写 下面这张经典图很好地说明了如何编写一个WordCount,也清楚说明了MapReduce的流程 对于输入的一个文本(可以存放在HDFS上,可以非常非常大),先对文件进行拆分,假设这里一行一份,对于每一行,按空格进行切分,然后给每个单词赋初值为1,这里同一个map里有相同的单词,也是不会覆盖的,会保留两个(word, 1)
相关文章
相关标签/搜索