一个spark优化案例

一个实际的案例,sql处理逻辑很复杂,跑不动,只摘取关键逻辑的代码进行分析。 优化前 sql精简后关键部分 关键逻辑:从三个表取数据,然后分别inner join 数据特征:临时表1有16亿+,临时表2有4亿+,临时表3只有200+。 yarn资源管理页面分析 只有一个job,1000多个task,一直非常慢,跑到最后两个task卡住了 。 进入job看看 从截图分析步骤 stage0: 生成4亿
相关文章
相关标签/搜索