Spark shuffle

1、什么是shuffle Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。 2、为什么需要shuffle 在分布式计算框架中,数据本地化是一个很重要的考虑,即计算需要被分发到数据所在的
相关文章
相关标签/搜索