第二篇一次查询

问题:sparksql用GROUPPING SETS同时做不同维度组合的聚合,原先刚刚好危险的在一个小时内跑完,又新加了两个维度,维度组合翻倍(大致30个组合),结果要聚合的数据量也翻倍了。。。每次数据量大于2T,导致倾斜严重,运行慢的问题。(注,图的笔记利用了两个很相同的查询,只是为了说明一下情况) 尝试改进1:用mr跑会不会更快?没有,mr跑了2小时,spark跑了1个半小时(参数相同,只是把
相关文章
相关标签/搜索