深刻MapReduce

时间 2019-11-05

标签深刻 mapreduce 栏目 Hadoop 繁體版

原文原文链接

1． MapReduce的输入和输出app

MapReduce框架运转在<key,value>键值对上，也就是说，框架把做业的输入当作是一组<key,value>键值对，一样也产生一组<key,value>键值对做为做业的输出，这两组键值对多是不一样的。框架

一个MapReduce做业的输入和输出类型以下图所示：能够看出在整个标准的流程中，会有三组<key,value>键值对类型的存在。

2． MapReduce的处理流程解析2.1． Mapper任务执行过程详解ide

l 第一阶段是把输入目录下文件按照必定的标准逐个进行逻辑切片，造成切片规划。默认状况下，Split size = Block size。每个切片由一个MapTask处理。（getSplits）函数

l 第二阶段是对切片中的数据按照必定的规则解析成<key,value>对。默认规则是把每一行文本内容解析成键值对。key是每一行的起始位置(单位是字节)，value是本行的文本内容。（TextInputFormat）orm

l 第三阶段是调用Mapper类中的map方法。上阶段中每解析出来的一个<k,v>，调用一次map方法。每次调用map方法会输出零个或多个键值对。blog

l 第四阶段是按照必定的规则对第三阶段输出的键值对进行分区。默认是只有一个区。分区的数量就是Reducer任务运行的数量。默认只有一个Reducer任务。排序

l 第五阶段是对每一个分区中的键值对进行排序。首先，按照键进行排序，对于键相同的键值对，按照值进行排序。好比三个键值对<2,2>、<1,3>、<2,1>，键和值分别是整数。那么排序后的结果是<1,3>、<2,1>、<2,2>。若是有第六阶段，那么进入第六阶段；若是没有，直接输出到文件中。开发

l 第六阶段是对数据进行局部聚合处理，也就是combiner处理。键相等的键值对会调用一次reduce方法。通过这一阶段，数据量会减小。本阶段默认是没有的。get

2.2． Reducer任务执行过程详解it

l 第一阶段是Reducer任务会主动从Mapper任务复制其输出的键值对。Mapper任务可能会有不少，所以Reducer会复制多个Mapper的输出。

l 第二阶段是把复制到Reducer本地数据，所有进行合并，即把分散的数据合并成一个大的数据。再对合并后的数据排序。

l 第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对。最后把这些输出的键值对写入到HDFS文件中。

在整个MapReduce程序的开发过程当中，咱们最大的工做量是覆盖map函数和覆盖reduce函数。