Shuffle操做的原理与源码分析

普通的shuffle操做 第一个特色,缓存     在Spark早期版本中,那个bucket缓存是很是很是重要的,由于须要将一个ShuffleMapTask全部的数据都写入内存缓存以后,才会刷新到磁盘。可是这就有一个问题,若是map side数据过多,那么很容易形成内存溢出。因此spark在新版本中,优化了,默认那个内存缓存是100kb,而后呢,写入一点数据达到了刷新到磁盘的阈值以后,就会将数据一
相关文章
相关标签/搜索