Hadoop InputFormat浅析

时间 2021-01-19

原文原文链接

在执行一个Job的时候，Hadoop会将输入数据划分成N个Split，然后启动相应的N个Map程序来分别处理它们。数据如何划分？Split如何调度（如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上）？划分后的数据又如何读取？这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发： 1、运行mapred程序； 2、本次运行将生成一个Job，于是Job