SparkTroubleshooting 故障排除

一 控制reduce端缓冲区大小,避免OOM buffer默认大小为48M reduce端的task会一边拉取一边计算,不一定每次都会拉满48M 虽然增大reduce可以减少拉取次数,提高shuffle性能,但是map端数据量很大,写出的速度很快,reduce端在拉取的时候可能达到自己的缓冲的最大极限值(48M),再加上reduce执行聚合函数可能创建大量的对象,可能会导致内存溢出。 处理方式:此
相关文章
相关标签/搜索