Spark项目实战-troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

一、reduce缓冲机制 如下,我们知道shuffle的map端task是不断输出数据的,数据量可能是很大的。 但是其实reduce端的task,并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后再去拉取的。map端写一点数据,reduce端task就会拉取一小部分数据,立即进行后面的聚合、算子函数的应用。每次reduece能够拉取多少数据,就由缓冲buffer来决定。因为拉取过来
相关文章
相关标签/搜索