对于很是大的数据集,有时用户须要使用的是一个具备表明性的查询结果,而不是所有结果。Hive能够经过分桶抽样来知足这个需求。函数
经过rand()函数实现抽样(能够经过分桶裁剪提升抽样效率)效率
经过块抽样(百分比)实现抽样数据
注:在使用rand进行抽样是能够使用桶进行输入裁剪。查询