MapReduce和Spark相关原理_Shuffle

时间 2020-12-27

原文原文链接

--绿字猜测--红字疑问从Map输出到Reduce输入的整个过程可以广义地称为Shuffle Mapreduce引擎 map输出键值对数据不断写入环形缓存区(内存)，到达阀值后spill溢写(这个过程中是按照partition和key值升序排序写入，如果有调用combiner则在排序后再调用combiner)，一次溢写会在磁盘上产生一个小文件，全部溢写完成得到多个小文件，对这些小文件进行me