spark shuffle总结

1、未经优化的HashShuffleManager shuffle write:数据结构 stage结束以后,每一个task处理的数据按key进行“分类” 数据先写入内存缓冲区 缓冲区满,溢出到磁盘文件 最终,相同key被写入同一个磁盘文件 建立的磁盘文件数量 = 当前stagetask数量 * 下一个stage的task数量性能 shuffle read:优化 从上游stage的全部task节点
相关文章
相关标签/搜索