MapReduce之Job提交流程

@app

1. 准备阶段

运行Job.waitForCompletion(),先使用JobSubmitter提交Job,在提交以前,会在Job的做业目录中生成如下文件:
job.split:当前Job的切片信息,有几个切片对象
job.splitmetainfo:切片对象的属性信息
job.xml:job全部的属性配置线程

2. 提交阶段

本地模式
LocalJobRunner进行提交,若是是HDFS,使用了yarn,则是YARNJobRunner
建立一个LocalJobRunner.Job()
job启动:Job.start()code

Map阶段xml

  • 采用线程池提交多个MapTaskRunable线程
  • 每一个MapTaskRunable线程上,实例化一个MapTask对象
  • 每一个MapTask对象,最终实例化一个Mapper
  • Mapper.run()
  • 线程运行结束,会在线程的做业目录中生成 file.out文件,保存MapTask输出的全部的key-value

阶段定义
若是有ReduceTask,MapTask运行期间,分为 map(67%)---sort(33%) 两部分
若是没有ReduceTask,MapTask运行期间,只有map(100%)
map: 使用RecordReader将切片中的数据读入到Mapper.map(),直至写出:context.write(key,value)对象

Reduce阶段blog

  • 采用线程池提交多个ReduceTaskRunable线程
  • 每一个ReduceTaskRunable线程上,实例化一个ReduceTask对象
  • 每一个ReduceTask对象,实例化一个Reducer
  • reducer.run()
  • 线程运行结束,会在输出目录中生成part-r-000x文件,保存ReduceTask输出的全部的key-value,即最后结果

阶段定义排序

  • copy:使用shuffle线程拷贝MapTask指定分区的数据
  • sort:将拷贝的全部的分区的数据汇总后,排序
  • reduce:对排好序的数据,进行合并

相关文章
相关标签/搜索