hive group by distinct区别以及性能比较

Hive去重统计 相信使用Hive的人平时会常常用到去重统计之类的吧,可是好像平时不多关注这个去重的性能问题,可是当一个表的数据量很是大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了不少,因而研究了一下。 先说结论:能使用group by代替distinc就不要使用distinct,例子:git 实际论
相关文章
相关标签/搜索