spark 大型项目实战(三十五):--Shuffle调优之合并map端输出文件

如果不合并map端输出文件的话,会怎么样? 前置条件: 每个executor有2个cpu core。4个task。 task是线程执行的。 所以先并行跑2个task,再跑剩下2个task 图解如下: 第一个stage,每个task,都会给第二个stage的每个task创建一份map端的输出文件 第二个stage,每个task,会到各个节点上面去,拉取第一个stage每个task输出的,属于自己的那
相关文章
相关标签/搜索