浅谈spark中如何划分stage

窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为 一个父RDD的分区对应于一个子RDD的分区 两个父RDD的分区对应于一个子RDD 的分区。 宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区,这是shuffle类操作 Stage: 一个Job会被拆分为多组Task,每组任务被称为一个Stage就像Map Stage, Reduce Stage。Stage的划分,简单的说是以s
相关文章
相关标签/搜索