hadoop 文件划分,map执行浅析

在执行一个Job的时候,Hadoop会将输入数据划分红N个Split,而后启动相应的N个Map程序来分别处理它们。 数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。 先从一张经典的MapReduce工做流程图出发: 一、运行mapred程序; 二、本次运行将生成一个Job,因而Job
相关文章
相关标签/搜索