Hadoop和Spark的Shuffer过程对比解析

  Hadoop Shuffer#     Hadoop 的shuffer主要分为两个阶段:Map、Reduce。 Map-Shuffer:#     这个阶段发生在map阶段之后,数据写入内存之前,在数据写入内存的过程就已经开始shuffer,通过设置mapreduce.task.io.sort.mb的参数,可改变内存的大小,默认为100M。数据在写入内存大于80%时,会发生溢写spill)过程
相关文章
相关标签/搜索