hadoop读书笔记MapReduce执行流程

时间 2019-11-17

标签 hadoop 读书笔记 mapreduce 执行流程栏目 Hadoop 繁體版

原文原文链接

一、提交做业：主要执行函数submitJob(); 函数

① 经过调用jobTracker对象的getNewJobId()方法从JobTracker处理取当前做业的ID号； spa

② 检查做业相关路径。对象

③ 计算做业的出入划分，并将划分信息写入Job.split文件中。若是吸入失败就会返回错误信息。资源

④ 将运行做业所须要的资源---包括做业JAR文件，配置文件和计算所得的输入划分等—复制到做业对应的HDFS上。 get

⑤ 调用JobTracker对象的submitJob（）方法来真正提交做业； it

二、初始化做业---做业提交后JobTracker会把此调用方法内部TaskScheduler变量中，而后进行调度。看成业被调度执行时，JobTracker会建立一个表明这个做业的JobInprogress对象。JobInProgress对象的initTasks函数会对人物进行初始化。变量

① 从HDFS中读取做业对应的Job.split；配置

② 建立并初始化Map和Reduce任务循环

③ 初始化两个task; 程序

三、分配任务：

taskTracker做业为一个单独的JVM执行一个简单的循环。主要实现每隔一段时间向jobTracker发送心跳：告诉JobTracker此TaskTracker是否存活，是否准备执行新的任务。JobTracker接受到心跳信息。若是有待分配任务。它就会为TaskTracker分配一个任务并将分配信息封装在新掉通讯的返回值中返回给TaskTracker；

四、执行任务：

TaskTracker申请到新的任务以后，就要在本地运行任务了。运行任务的第一步是

任务本地化—将任务运行所须要的数据配置信息、程序代码从HDFS复制到TaskTracker本地；

五、更新任务执行进度和状态

经过心跳通讯机制，全部TaskTracker的统计信息都会汇总到JobTracker处JobClient经过每秒查看JobTracker来接受做业进度的最新状态。