不可不知的spark shuffle

shuffle概览 一个spark的RDD有一组固定的分区组成,每一个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipeline的形式计算。每一个对象仅依赖于父RDD中的单个对象。诸如coalesce之类的操做可能致使任务处理多个输入分区,但转换仍然被认为是窄依赖的,由于一个父RDD的分区只会被一个子RDD分区继承。 网络 Spa
相关文章
相关标签/搜索