图解Spark Shuffle的发展历程

一、Spark Hash Shuffle        基于Hash的Shuffle Write操作较为简单,这种Shuffle方式中,Shuffle Map Task会根据下游生成的Partition个数来创建中间文件来存储对应的Partition数据。如下图所示,下游生成3个Partition,此时每个Shuffle Map Task会生成3个中间文件来存储3个Partition中的数据。如一
相关文章
相关标签/搜索