Spark数据倾斜之发现篇

用spark做大数据处理,不怕数据大,就怕发生数据倾斜,一发生数据倾斜,轻则spark job要跑很久才能结束,重则OOM,把一个executor的存储空间撑爆,导致程序终止。 一个spark job 是由多个stage组成的 ,stage之间具有先后关系,所以是串行执行的 ,一个stage是由多个task 组成的,每个task之间可以并行运行,一个stage的运行时间由耗时最长的那个task来决
相关文章
相关标签/搜索