Hadoop和Spark的Shuffer过程对比解析

时间 2021-01-12

原文原文链接

Hadoop Shuffer# Hadoop 的shuffer主要分为两个阶段：Map、Reduce。 Map-Shuffer:# 这个阶段发生在map阶段之后，数据写入内存之前，在数据写入内存的过程就已经开始shuffer,通过设置mapreduce.task.io.sort.mb的参数，可改变内存的大小，默认为100M。数据在写入内存大于80%时，会发生溢写spill)过程