Spark Shuffle原理与源码解析

一、普通的shuffle过程缓存 ①假设节点上有4个ShuffleMapTask,节点上有2个cup core并发 ②ShuffleMapTask的输出,称为shuffle过程的第一个rdd,即MapPartitionRDDapp ③每一个ShuffleMapTask会为每个task建立一份bucket内存缓存,以及对应的ShuffleBlockFile磁盘文件dom ④ShuffleMapTas
相关文章
相关标签/搜索