spark-shuffle总结及调优

spark1.2  默认使用的是 HashShuffle  写入磁盘流程:     将每个task 处理的数据,按照 key 的 hash 进行分类,从而相同的 key 写入到同一个磁盘文件里面,而每个磁盘文件都只属于下游 stage 的一个 task,将数据写入到磁盘前,会先将数据写入到内存缓冲中,当内存缓冲填满后,溢写到磁盘文件中       不排序,当前 stage 的每个 maptask,
相关文章
相关标签/搜索