MapReduce之Job提交流程

时间 2020-07-18

原文原文链接

@app

1. 准备阶段

运行Job.waitForCompletion()，先使用JobSubmitter提交Job，在提交以前，会在Job的做业目录中生成如下文件：
job.split：当前Job的切片信息，有几个切片对象
job.splitmetainfo：切片对象的属性信息
job.xml：job全部的属性配置线程

2. 提交阶段

本地模式：
LocalJobRunner进行提交，若是是HDFS，使用了yarn，则是YARNJobRunner
建立一个LocalJobRunner.Job()
job启动：Job.start()code

Map阶段xml

采用线程池提交多个MapTaskRunable线程
每一个MapTaskRunable线程上，实例化一个MapTask对象
每一个MapTask对象，最终实例化一个Mapper
Mapper.run()
线程运行结束，会在线程的做业目录中生成 file.out文件，保存MapTask输出的全部的key-value

阶段定义
若是有ReduceTask，MapTask运行期间，分为 map(67%)---sort(33%) 两部分
若是没有ReduceTask，MapTask运行期间，只有map(100%)
map: 使用RecordReader将切片中的数据读入到Mapper.map()，直至写出：context.write(key,value)对象

Reduce阶段blog

采用线程池提交多个ReduceTaskRunable线程
每一个ReduceTaskRunable线程上，实例化一个ReduceTask对象
每一个ReduceTask对象，实例化一个Reducer
reducer.run()
线程运行结束，会在输出目录中生成part-r-000x文件，保存ReduceTask输出的全部的key-value，即最后结果

阶段定义排序

copy：使用shuffle线程拷贝MapTask指定分区的数据
sort：将拷贝的全部的分区的数据汇总后，排序
reduce：对排好序的数据，进行合并