MapReduce工作流程详解

时间 2020-12-23

原文原文链接

先从HDFS文件系统中读取文件进行合并进行逻辑切分 Split 对一行数据进行切分RecordRead,以key为行首字母的偏移量value为对应的一行数据传给maptask MapTask对数据进行处理后传给shuffle的分区partition partition对数据进行分区处理将数据传给shuffle的sort排序 sort排序后的结果传送给shuffle的combiner(局部