spark基础之shuffle机制和原理分析

一 概述缓存 Shuffle就是对数据进行重组,因为分布式计算的特性和要求,在实现细节上更加繁琐和复杂网络 在MapReduce框架,Shuffle是链接Map和Reduce之间的桥梁,Map阶段经过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程当中,每每伴随着大量的磁盘和网络I/O。因此shuffle性能的高低也直接
相关文章
相关标签/搜索