Spark(八)———— troubleshooting控制

一、控制shuffle reduce端缓冲大小以免OOM java map端的task是不断的输出数据的,数据量多是很大的。web 可是,其实reduce端的task,并非等到map端task将属于本身的那份数据所有写入磁盘文件以后,再去拉取的。map端写一点数据,reduce端task就会拉取一小部分数据,当即进行后面的聚合、算子函数的应用。sql 每次reduece可以拉取多少数据,就由buf
相关文章
相关标签/搜索