第二篇一次查询

时间 2021-01-17

原文原文链接

问题：sparksql用GROUPPING SETS同时做不同维度组合的聚合，原先刚刚好危险的在一个小时内跑完，又新加了两个维度，维度组合翻倍（大致30个组合），结果要聚合的数据量也翻倍了。。。每次数据量大于2T，导致倾斜严重，运行慢的问题。(注，图的笔记利用了两个很相同的查询，只是为了说明一下情况) 尝试改进1：用mr跑会不会更快？没有，mr跑了2小时，spark跑了1个半小时（参数相同，只是把