spark基础之shuffle机制和原理分析

时间 2019-12-04

原文原文链接

一概述缓存 Shuffle就是对数据进行重组，因为分布式计算的特性和要求，在实现细节上更加繁琐和复杂网络在MapReduce框架，Shuffle是链接Map和Reduce之间的桥梁，Map阶段经过shuffle读取数据并输出到对应的Reduce；而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程当中，每每伴随着大量的磁盘和网络I/O。因此shuffle性能的高低也直接

>>阅读原文<<