[2] - mapreduce的shuffle流程详解

一、MapReduce执行全流程(包含shuffle) 1、mr执行流程图 2、流程文字描述: 1、首先准备好待处理文本(一般是存储在hdfs上的日志文件等) 2、客户端提交前,先获取待处理数据的信息,根据参数配置,形成一个任务分配的规划(数据切片), 有几个切片就对应那几个map 3、提交切片信息 4、计算出maptask的数量 5、存在一个inputFormat父类,hadoop使用的是Fil
相关文章
相关标签/搜索