菜鸟的Spark 源码学习之路 -8 Shuffle

上一次研究的BlockManager相关的源码实现。本次进入Shuffle管理的学习。 Shuffle是spark的一个重要的过程抽象,它涉及到以下几个问题: 1. 数据重新分区 2.数据传输 3.数据压缩 4.磁盘IO 1. 结构概览 我们先看一下Shuffle包的类和对象组成,包括java和scala两部分: Spark2.x后,原有的MapShuffleManager已经被弃用,现在只有So
相关文章
相关标签/搜索