Hive中distinct和Group by效率对比及处理方式

注:该Hive语法仍能够作不少优化:创建临时表一次性从大表中取出数据;把where条件尽可能放在一次判断中,这里仅针对distinct和group by讨论。web 结论: 针对大量数据的去重,group by的效率要远高于distinct。sql 从distinct转化为group by 简单的转化这里不提,针对:一条语句里求总记录条数以及去重以后的记录条数: 简单示例: shell SELEC
相关文章
相关标签/搜索