大数据开发：剖析Hadoop和Spark的Shuffle过程差异

时间 2021-01-12

原文原文链接

一、前言对于基于MapReduce编程范式的分布式计算来说，本质上而言，就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想，让每个节点只计算部分数据，也就是只处理一个分片，那么要想求得某个key对应的全量数据，那就必须把相同key的数据汇集到同一个Reduce任务节点来处理，那么Mapreduce范式定义了一个叫做Shuffle的过程来实现这个效果。二、编写本文的目的本

>>阅读原文<<