Spark宽窄依赖详解

1.宽窄依赖   图中左边是宽依赖,父RDD的4号分区数据划分到子RDD的多个分区(一分区对多分区),这就代表有shuffle过程,父分区数据通过shuffle过程的hash分区器(也可自定义分区器)划分到子RDD。例如GroupByKey,reduceByKey,join,sortByKey等操做。安全 图右边是窄依赖,父RDD的每一个分区的数据直接到子RDD的对应一个分区(一分区对一分区),例
相关文章
相关标签/搜索