Hadoop入门之Mapreduce流程Shuffle过程

时间 2021-08-15

原文原文链接

昨天大概讲述了下MR的大概流程(分片,Mapper,Reducer),其中mapper和reducer中间的衔接过程shuffle没有谈到,这次主要总结下这个过程. 1.maptask通过inputformat(可以自定义实现类)读取要处理的文件交给你写的mapper过程处理后到outputcollector进行一些列的操作后写入到HDFS中(操作如下) 2.将要写出的数据先写入到内存缓存区,通过