Spark RDD五大特征

1.Rdd由一组分区组成 (partition) 默认是一个block 对应一个分区 2.每个分区都有一个 Task 来处理 ,函数实际上 是作用在每一个分区上的 3.RDD 直接由一系列的依赖关系 宽依赖 与窄 依赖 宽依赖 存在 shuffle 算子分区对应的关系 是一对多 关系 窄依赖 没有 shuffle 算子 分区对应一对一关系 根据宽窄依赖切分 Stage , Stage 是一组并行计
相关文章
相关标签/搜索