性能调优-shuffle调优

shuffle调优 什么状况下会发生shuffle,而后shuffle的原理是什么? 在spark中,主要是如下几个算子:groupByKey、reduceByKey、countByKey、join,等等。 什么是shuffle? groupByKey,要把分布在集群各个节点上的数据中的同一个key,对应的values,都给集中到一起, 集中到集群中同一个节点上,更严密一点说,就是集中到一个节点的
相关文章
相关标签/搜索