大数据面试题——Spark篇

时间 2020-06-11

原文原文链接

1. 简要讲述hadoop和spark的shuffle相同和差别？ 1）从高层次的的角度来看，二者并无大的差异。它都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不一样的 partition 送到不一样的 reducer（Spark 里 reducer 多是下一个 stage 里的 ShuffleMapTask，也多是 ResultTask）