spark源码:怎么确定算子是否会shuffle

网上已经有很多博客总结过会产生shuffle的算子,DAGScheduler根据 宽窄依赖/shuffle 来划分stage。那么怎么判定算子会shuffle呢。 org.apache.spark.rdd OrderedRDDFunctions 通过这个类可以看出。 这些个算子会发生shuffle。 共性特征为 new shuffled rdd。
相关文章
相关标签/搜索