Spark的Shuffle过程

时间 2021-01-02

原文原文链接

为什么80%的码农都做不了架构师？>>> Shuffle过程分为shuffle write和shuffle read。由父RDD(比如join就是join两边的RDD)根据分区数进行划分，并写内存或磁盘，构成write过程。由子RDD(join之后生成的RDD，分区数由spark.default.parallelism控制)从父RDD那里拉取数据到自己的分区构成re