大数据-面经附个人理解(Spark Shuffle)(1)

Spark: 1.Spark中的shuffle有哪些? 1.1.最早的Hash Based Shuffle(2.0以上被弃用) 每个Mapper对每一个Reducer都会创建相应的bucket,bucket数量为 Mapper个数×Reducer个数。缺点是会产生太多小文件,后面将一个core上的 多个Mapper的输出合并到同一个文件,bucket数量变为
相关文章
相关标签/搜索