hive的分桶

一.总结   分桶是相对分区进行更细粒度的划分。分桶将整个数据内容安装某列属性值得hash值进行区分,如要安装name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。几个桶就是几个文件. 二.用途   在分区数量过于庞大,就会有海量的目录建立,以至于可能导致文件系统
相关文章
相关标签/搜索