Spark优化(五):使用map-side预聚合的shuffle操作

使用map-side预聚合的shuffle操作 如果因为业务需要,一定要使用shuffle操作,无法用map类的算子来替代,那么尽量使用可以map-side预聚合的算子。 所谓的map-side预聚合,说的是在每个节点本地对相同的key进行一次聚合操作,类似于MapReduce中的本地combiner。   map-side预聚合之后,每个节点本地就只会有一条相同的key,因为多条相同的key都被
相关文章
相关标签/搜索