Hive面试题:cluster by,order by,sort by distribute by的使用场景

order by:会对输入作全局排序,所以只有一个Reducer(多个Reducer没法保证全局有序),然而只有一个Reducer,会致使当输入规模较大时,消耗较长的计算时间。算法 sort by:不是全局排序,其在数据进入reducer前完成排序,所以,若是用sort by进行排序,而且设置mapred.reduce.tasks>1,则sort by只会保证每一个reducer的输出有序,并不保
相关文章
相关标签/搜索