Hive中GroupBy的实现原理

时间 2019-12-06

原文原文链接

例子 hive> SELECT * FROM logs; a 苹果 5 a 橙子 3 a 苹果 2 b 烧鸡 1 hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid; a 10 b 1 计算过程默认设置了hive.map.aggr=true，因此会在mapper端先group by一次，最后再把结果merge起来，为了减小re