Spark的Shuffle是怎么回事

​ Shuffle的中文含义是混洗,官方定义是:一种让数据从新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程当中,存在着大量的网络消耗传输数据,会在磁盘上产生大量的中间文件,在平时的工做中了解shuffle的运行机制能帮助咱们写出更优秀的代码。此篇文章从shuffle的含义开始讲起,按照spark中shuffle的几中不一样运行机制进行了解析,并最终附上了一些shuffle调优
相关文章
相关标签/搜索