spark rdd之间的宽依赖和窄依赖

①task从hdfs读取数据到linesRDD中,同一批task对linesRDD进行flatMap操作; ②继续对wordsRDD做map操作,记录单词次数 ③这个地方会划分一个stage,新的一批task会提交到executor上,对pairs RDD做reduceByKey操作 窄依赖(narrow dependency):每一个父RDD的Partition最多被子RDD的一个Partiti
相关文章
相关标签/搜索