大数据-面经附个人理解（Spark Shuffle）（1）

时间 2021-01-15

原文原文链接

Spark： 1.Spark中的shuffle有哪些？ 1.1.最早的Hash Based Shuffle（2.0以上被弃用）每个Mapper对每一个Reducer都会创建相应的bucket，bucket数量为 Mapper个数×Reducer个数。缺点是会产生太多小文件，后面将一个core上的多个Mapper的输出合并到同一个文件，bucket数量变为