Spark项目实战-troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

时间 2021-01-09

原文原文链接

一、reduce缓冲机制如下，我们知道shuffle的map端task是不断输出数据的，数据量可能是很大的。但是其实reduce端的task，并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后再去拉取的。map端写一点数据，reduce端task就会拉取一小部分数据，立即进行后面的聚合、算子函数的应用。每次reduece能够拉取多少数据，就由缓冲buffer来决定。因为拉取过来

>>阅读原文<<