[Hive]Hive排序优化

一、从order by 到 sort by order by:全局排序,大数据集会消耗太过漫长的时间 sort by:只会在每一个reducer 中对数据进行排序,也就是执行局部排序过程,只能保证每一个reducer的输出数据都是有序的(但并不是全局有序) 二、sort by+distribute by distribute by控制map的输出在reducer中是如何划分的。假设咱们但愿具备相同
相关文章
相关标签/搜索