Spark的Shuffle过程

为什么80%的码农都做不了架构师?>>>                Shuffle过程分为shuffle write和shuffle read。 由父RDD(比如join就是join两边的RDD)根据分区数进行划分,并写内存或磁盘,构成write过程。由子RDD(join之后生成的RDD,分区数由spark.default.parallelism控制)从父RDD那里拉取数据到自己的分区构成re
相关文章
相关标签/搜索