hive数据抽样

首先,咱们了解一下抽样查询的SQL语法。sql

分桶抽样
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
百份比抽样
TABLESAMPLE (n PERCENT)
行抽样
TABLESAMPLE (n ROWS)
大小抽样
TABLESAMPLE (n{'b' | 'B' | 'k' | 'K' | 'm' | 'M' | 'g' | 'G'})

分桶抽样ui

根据hash(uid) % 20进行分桶,抽取第一个桶的数据。
SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON uid) t
随机分桶,并抽取第一个桶的数据。
SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON rand()) t

百份比抽样code

SELECT * FROM TABLE1 TABLESAMPLE(10.5 PERCENT) t

行抽样hash

SELECT * FROM TABLE1 TABLESAMPLE(105 ROWS) t

大小抽样class

SELECT * FROM TABLE1 TABLESAMPLE(500M) t
相关文章
相关标签/搜索