Hadoop Hive 中几种排序方法的区别与比较

时间 2019-11-18

标签 hadoop hive 几种排序方法区别比较栏目 Hadoop 繁體版

原文原文链接

Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的做用和用法 java

1. order by 数据库

set hive.mapred.mode=nonstrict; (default value / 默认值) 服务器

set hive.mapred.mode=strict; 函数

order by 和数据库中的Order by 功能一致，按照某一项 & 几项排序输出。 oop

与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 不然执行会报错。 spa

hive> select * from test order by id; blog

FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error encountered near token 'id' 排序

缘由：在order by 状态下全部数据会到一台服务器进行reduce操做也即只有一个reduce，若是在数据量大的状况下会出现没法输出结果的状况，若是进行 limit n ，那只有 n * map number 条记录而已。只有一个reduce也能够处理过来。 token

2. sort by hadoop

sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响

sort by 的数据只能保证在同一reduce中的数据能够按指定字段排序。

使用sort by 你能够指定执行的reduce 个数（set mapred.reduce.tasks=<number>）这样能够输出更多的数据。

对输出的数据再执行归并排序，便可以获得所有结果。

注意：能够用limit子句大大减小数据量。使用limit n后，传输到reduce端（单机）的数据记录数就减小到n* （map个数）。不然因为数据过大可能出不告终果。

http://www.alidata.org/archives/622

3. distribute by

按照指定的字段对数据进行划分到不一样的输出reduce / 文件中。

insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);

此方法会根据name的长度划分到不一样的reduce中，最终输出到不一样的文件中。

length 是内建函数，也能够指定其余的函数或这使用自定义函数。

4. DISTRIBUTE BY with SORT BY
DISTRIBUTE BY可以控制map的输出在reduce中如何划分。其能够按照指定的字段对数据进行划分到不一样的输出reduce/文件中。
DISTRIBUTE BY和GROUP BY有点相似，DISTRIBUTE BY控制reduce如何处理数据，而SORT BY控制reduce中的数据如何排序。
注意：hive要求DISTRIBUTE BY语句出如今SORT BY语句以前。

5. Cluster By

cluster by 除了具备 distribute by 的功能外还兼具 sort by 的功能。

默认倒序排序，但DISTRIBUTE BY的字段和SORT BY的字段必须相同，且不能指定排序规则。 asc 或者 desc。

总结：

ORDER BY是全局排序，但在数据量大的状况下，花费时间会很长
SORT BY是将reduce的单个输出进行排序，不能保证全局有序
DISTRIBUTE BY能够按指定字段将数据划分到不一样的reduce中
当DISTRIBUTE BY的字段和SORT BY的字段相同时，能够用CLUSTER BY来代替 DISTRIBUTE BY with SORT BY。

Refer：

Hive中的排序语法

http://blog.javachen.com/2014/06/22/sort-in-hive-query/#