spark 大型项目实战(三十五):--Shuffle调优之原理概述

时间 2021-01-04

原文原文链接

什么样的情况下，会发生shuffle？在spark中，主要是以下几个算子：groupByKey、reduceByKey、countByKey、join，等等。什么是shuffle？ groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，更严密一点说，就是集中到一个节点的一个executor的一个task中。然后呢