hive中order by 、sort by、distribute by、cluster by区别

1.Order By:全局排序,只有一个Reducer,所以当数据量很大的时候用order by会比较慢。 2.sort by:区内排序,每个Reducer内部进行排序,对全局结果集来说不是排序。 (使用sort by的话前提要设置一下reduce个数,set mapreduce.job.reduces=n,n为reduce的个数,n>1) 例如按照部门编号从高到低进行排序,这里我的reduce设
相关文章
相关标签/搜索