spark的shuffle有几种方式

时间 2019-12-04

原文原文链接

shuffle过程当中分为shuffle write和shuffle read，并且会在不一样的stage中进行的在进行一个key对应的values的聚合时，首先，上一个stage的每一个map task就必须保证将本身处理的当前分区中的数据相同key写入一个分区文件中，可能会多个不一样的分区文件，接着下一个stage的reduce task就必须从上一个stage的全部task所在的节点上，