Hadoop源代码分析（MapReduce概论）

时间 2019-12-05

标签 hadoop 源代码分析 mapreduce 概论栏目 Hadoop 繁體版

原文原文链接

你们都熟悉文件系统，在对HDFS进行分析前，咱们并无花不少的时间去介绍HDFS的背景，毕竟你们对文件系统的仍是有必定的理解的，并且也有很好的文档。在分析Hadoop的MapReduce部分前，咱们仍是先了解系统是如何工做的，而后再进入咱们的分析部分。下面的图来自http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.html，是我看到的讲MapReduce最好的图。

以Hadoop带的wordcount为例子（下面是启动行）：
hadoop jar hadoop-0.19.0-examples.jar wordcount /usr/input/usr/output
用户提交一个任务之后，该任务由JobTracker协调，先执行Map阶段（图中M1，M2和M3），而后执行Reduce阶段（图中R1和R2）。Map阶段和Reduce阶段动做都受TaskTracker监控，并运行在独立于TaskTracker的Java虚拟机中。
咱们的输入和输出都是HDFS上的目录（如上图所示）。输入由InputFormat接口描述，它的实现如ASCII文件，JDBC数据库等，分别处理对于的数据源，并提供了数据的一些特征。经过InputFormat实现，能够获取InputSplit接口的实现，这个实现用于对数据进行划分（图中的splite1到splite5，就是划分之后的结果），同时从InputFormat也能够获取RecordReader接口的实现，并从输入中生成<k,v>对。有了<k,v>，就能够开始作map操做了。
map操做经过context.collect（最终经过OutputCollector. collect）将结果写到context中。当Mapper的输出被收集后，它们会被Partitioner类以指定的方式区分地写出到输出文件里。咱们能够为Mapper提供Combiner，在Mapper输出它的<k,v>时，键值对不会被立刻写到输出里，他们会被收集在list里（一个key值一个list），当写入必定数量的键值对时，这部分缓冲会被Combiner中进行合并，而后再输出到Partitioner中（图中M1的黄颜色部分对应着Combiner和Partitioner）。
Map的动做作完之后，进入Reduce阶段。这个阶段分3个步骤：混洗（Shuffle），排序（sort）和reduce。
混洗阶段，Hadoop的MapReduce框架会根据Map结果中的key，将相关的结果传输到某一个Reducer上（多个Mapper产生的同一个key的中间结果分布在不一样的机器上，这一步结束后，他们传输都到了处理这个key的Reducer的机器上）。这个步骤中的文件传输使用了HTTP协议。
排序和混洗是一块进行的，这个阶段未来自不一样Mapper具备相同key值的<key,value>对合并到一块儿。
html

Reduce阶段，上面经过Shuffle和sort后获得的<key, (list of values)>会送到Reducer. reduce方法中处理，输出的结果经过OutputFormat，输出到DFS中。java

更多精彩内容请关注：http://bbs.superwu.cn web

关注超人学院微信二维码：数据库

关注超人学院java免费学习交流群：微信