sparksql优化之路

最近一直因为公司一个重要的做业,从Tez切换到sparksql,须要对sparksql进行优化。这个表都是left join,慢就慢在join阶段算法 Tez以前根据优化参数,执行时间在7分钟到12分钟之间浮动,sparksql进行一些参数优化,一直在17到24分钟浮动,效率过低。最后查看sparksql的执行时的shuffle阶段发现,每一个表参与的shuffle数据量相差很大,最大的612GB
相关文章
相关标签/搜索