Hive分区和桶的概念

Hive 已经是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来讲，Hive 的地位尚不可撼动。html

其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每一个Hadoop/Hive/DW RD 必须掌握的部分，以前也有几篇文章聊到过 MR/Hive 中的 join，其实底层都是相同的，只是上层作了些封装而已，若是你还不了解究竟 Join 有哪些方式，以及底层怎么实现的，请参考以下连接：android

http://my.oschina.net/leejun2005/blog/95186 MapReduce 中的两表 join 几种方案简介app

http://my.oschina.net/leejun2005/blog/111963 Hadoop 多表 join：map side join 范例ide

http://my.oschina.net/leejun2005/blog/158491 Hive & Performance 学习笔记函数

在最后一篇连接中，有这么两副图：oop

前面两个很好理解，基本上每一个人都会接触到，但最后一种，可能有同窗仍是比较陌生，SMB 存在的目的主要是为了解决大表与大表间的 Join 问题，分桶其实就是把大表化成了“小表”，而后 Map-Side Join 解决之，这是典型的分而治之的思想。在聊 SMB Join 以前，咱们仍是先复习下相关的基础概念。布局

一、Hive 分区表

在Hive Select查询中通常会扫描整个表内容，会消耗不少时间作不必的工做。有时候只须要扫描表中关心的一部分数据，所以建表时引入了partition概念。分区表指的是在建立表时指定的partition的分区空间。

Hive能够对数据按照某列或者某些列进行分区管理，所谓分区咱们能够拿下面的例子进行解释。
当前互联网应用天天都要存储大量的日志文件，几G、几十G甚至更大都是有可能。存储日志，其中必然有个属性是日志产生的日期。在产生分区时，就能够按照日志产生的日期列进行划分。把每一天的日志看成一个分区。
将数据组织成分区，主要能够提升数据的查询速度。至于用户存储的每一条记录到底放到哪一个分区，由用户决定。即用户在加载数据的时候必须显示的指定该部分数据放到哪一个分区。
学习

1.1 实现细节

一、一个表能够拥有一个或者多个分区，每一个分区以文件夹的形式单独存在表文件夹的目录下。
二、表和列名不区分大小写。
三、分区是以字段的形式在表结构中存在，经过describe table命令能够查看到字段存在，可是该字段不存放实际的数据内容，仅仅是分区的表示（伪列）。
大数据

1.2 语法

1. 建立一个分区表，以 ds 为分区列：
create table invites (id int, name string) partitioned by (ds string) row format delimited fields terminated by 't' stored as textfile;
2. 将数据添加到时间为 2013-08-16 这个分区中：
load data local inpath '/home/hadoop/Desktop/data.txt' overwrite into table invites partition (ds='2013-08-16');
3. 将数据添加到时间为 2013-08-20 这个分区中：
load data local inpath '/home/hadoop/Desktop/data.txt' overwrite into table invites partition (ds='2013-08-20');
4. 从一个分区中查询数据：
select * from invites where ds ='2013-08-12';
5. 往一个分区表的某一个分区中添加数据：
insert overwrite table invites partition (ds='2013-08-12') select id,max(name) from test group by id;
能够查看分区的具体状况，使用命令：
hadoop fs -ls /home/hadoop.hive/warehouse/invites
或者：
show partitions tablename;优化

二、Hive 桶

对于每个表（table）或者分区， Hive能够进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，而后除以桶的个数求余的方式决定该条记录存放在哪一个桶当中。

把表（或者分区）组织成桶（Bucket）有两个理由：

（1）得到更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，链接两个在（包含链接列的）相同列上划分了桶的表，可使用 Map 端链接（Map-side join）高效的实现。好比JOIN操做。对于JOIN操做两个表有一个相同的列，若是对这两个表都进行了桶操做。那么将保存相同列值的桶进行JOIN操做就能够，能够大大较少JOIN的数据量。

（2）使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，若是能在数据集的一小部分数据上试运行查询，会带来不少方便。

1. 建立带桶的 table ：

create table bucketed_user(id int,name string) clustered by (id) sorted by(name) into 4 buckets row format delimited fields terminated by '\t' stored as textfile;
首先，咱们来看如何告诉Hive—个表应该被划分红桶。咱们使用CLUSTERED BY 子句来指定划分桶所用的列和要划分的桶的个数：

CREATE TABLE bucketed_user (id INT) name STRING)
CLUSTERED BY (id) INTO 4 BUCKETS;

在这里，咱们使用用户ID来肯定如何划分桶(Hive使用对值进行哈希并将结果除以桶的个数取余数。这样，任何一桶里都会有一个随机的用户集合（PS：其实也能说是随机，不是吗？）。

对于map端链接的状况，两个表以相同方式划分桶。处理左边表内某个桶的 mapper知道右边表内相匹配的行在对应的桶内。所以，mapper只须要获取那个桶 (这只是右边表内存储数据的一小部分)便可进行链接。这一优化方法并不必定要求两个表必须桶的个数相同，两个表的桶个数是倍数关系也能够。用HiveQL对两个划分了桶的表进行链接，可参见“map链接”部分（P400）。

桶中的数据能够根据一个或多个列另外进行排序。因为这样对每一个桶的链接变成了高效的归并排序(merge-sort), 所以能够进一步提高map端链接的效率。如下语法声明一个表使其使用排序桶：

CREATE TABLE bucketed_users (id INT, name STRING)
CLUSTERED BY (id) SORTED BY (id ASC) INTO 4 BUCKETS;

咱们如何保证表中的数据都划分红桶了呢？把在Hive外生成的数据加载到划分红桶的表中，固然是能够的。其实让Hive来划分桶更容易。这一操做一般针对已有的表。

Hive并不检查数据文件中的桶是否和表定义中的桶一致(不管是对于桶的数量或用于划分桶的列）。若是二者不匹配，在査询时可能会碰到错误或未定义的结果。所以，建议让Hive来进行划分桶的操做。

有一个没有划分桶的用户表：
hive> SELECT * FROM users;
0 Nat
2 Doe
B Kay
4 Ann

2. 强制多个 reduce 进行输出：

要向分桶表中填充成员，须要将 hive.enforce.bucketing 属性设置为 true。①这样，Hive 就知道用表定义中声明的数量来建立桶。而后使用 INSERT 命令便可。须要注意的是： clustered by和sorted by不会影响数据的导入，这意味着，用户必须本身负责数据如何如何导入，包括数据的分桶和排序。
'set hive.enforce.bucketing = true' 能够自动控制上一轮reduce的数量从而适配bucket的个数，固然，用户也能够自主设置mapred.reduce.tasks去适配bucket个数，推荐使用'set hive.enforce.bucketing = true'

3. 往表中插入数据：

INSERT OVERWRITE TABLE bucketed_users SELECT * FROM users;

物理上，每一个桶就是表(或分区）目录里的一个文件。它的文件名并不重要，可是桶 n 是按照字典序排列的第 n 个文件。事实上，桶对应于 MapReduce 的输出文件分区：一个做业产生的桶(输出文件)和reduce任务个数相同。咱们能够经过查看刚才建立的bucketd_users表的布局来了解这一状况。运行以下命令：

4. 查看表的结构：

hive> dfs -ls /user/hive/warehouse/bucketed_users;
将显示有4个新建的文件。文件名以下(文件名包含时间戳，由Hive产生，所以每次运行都会改变)：
attempt_201005221636_0016_r_000000_0
attempt_201005221636_0016_r-000001_0
attempt_201005221636_0016_r_000002_0
attempt_201005221636_0016_r_000003_0
第一个桶里包括用户IDO和4，由于一个INT的哈希值就是这个整数自己，在这里除以桶数(4)之后的余数：②

5. 读取数据，看每个文件的数据：

hive> dfs -cat /user/hive/warehouse/bucketed_users/*0_0;
0 Nat
4 Ann

用TABLESAMPLE子句对表进行取样，咱们能够得到相同的结果。这个子句会将查询限定在表的一部分桶内，而不是使用整个表：

6. 对桶中的数据进行采样：

hive> SELECT * FROM bucketed_users
> TABLESAMPLE(BUCKET 1 OUT OF 4 ON id);
0 Nat
4 Ann

桶的个数从1开始计数。所以，前面的查询从4个桶的第一个中获取全部的用户。对于一个大规模的、均匀分布的数据集，这会返回表中约四分之一的数据行。咱们也能够用其余比例对若干个桶进行取样(由于取样并非一个精确的操做，所以这个比例不必定要是桶数的整数倍)。例如，下面的查询返回一半的桶：

7. 查询一半返回的桶数：

hive> SELECT * FROM bucketed_users
> TABLESAMPLE(BUCKET 1 OUT OF 2 ON id)；
0 Nat
4 Ann
2 Joe

由于查询只须要读取和TABLESAMPLE子句匹配的桶，因此取样分桶表是很是高效的操做。若是使用rand()函数对没有划分红桶的表进行取样，即便只须要读取很小一部分样本，也要扫描整个输入数据集：

hive〉 SELECT * FROM users
> TABLESAMPLE(BUCKET 1 OUT OF 4 ON rand());
2 Doe

①从Hive 0.6.0开始，对之前的版本，必须把mapred.reduce .tasks设为表中要填充的桶的个数。若是桶是排序的，还须要把hive.enforce.sorting设为true。
②显式原始文件时，由于分隔字符是一个不能打印的控制字符，所以字段都挤在一块儿。

三、举个完整的小例子：

（1）建student & student1 表：

 
      1 
      create table student(id INT, age INT, name STRING) 
     
      2 
      partitioned by(stat_date STRING) 
     
      3 
      clustered by(id) sorted by(age) into 2 buckets 
     
      4 
      row format delimited fields terminated by ','; 
     
      5 
        
      6 
      create table student1(id INT, age INT, name STRING) 
     
      7 
      partitioned by(stat_date STRING) 
     
      8 
      clustered by(id) sorted by(age) into 2 buckets 
     
      9 
      row format delimited fields terminated by ',';

（2）设置环境变量：

set hive.enforce.bucketing = true;

（3）插入数据：

 
      01 
      cat bucket.txt 
     
      02 
        
      03 
      1,20,zxm 
     
      04 
      2,21,ljz 
     
      05 
      3,19,cds 
     
      06 
      4,18,mac 
     
      07 
      5,22,android 
     
      08 
      6,23,symbian 
     
      09 
      7,25,wp 
     
      10 
        
      11 
      LOAD DATA local INPATH '/home/lijun/bucket.txt' OVERWRITE INTO TABLE student partition(stat_date="20120802"); 
     
      12 
        
      13 
      from student 
     
      14 
      insert overwrite table student1 partition(stat_date="20120802") 
     
      15 
      select id,age,name where stat_date="20120802" sort by age;

（4）查看文件目录：

hadoop fs -ls /hive/warehouse/test.db/student1/stat_date=20120802
Found 2 items
-rw-r--r-- 2 lijun supergroup 31 2013-11-24 19:16 /hive/warehouse/test.db/student1/stat_date=20120802/000000_0
-rw-r--r-- 2 lijun supergroup 39 2013-11-24 19:16 /hive/warehouse/test.db/student1/stat_date=20120802/000001_0

（5）查看sampling数据：

hive> select * from student1 tablesample(bucket 1 out of 2 on id);

Total MapReduce jobs = 1
Launching Job 1 out of 1
.......
OK
4 18 mac 20120802
2 21 ljz 20120802
6 23 symbian 20120802
Time taken: 20.608 seconds

注：tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y)
y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪一个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

四、Refer:

http://rdc.taobao.org/?p=1457 从MR到Hive – 一次迁移的过程

http://blog.573114.com/Blog/Html/A031/516857.html Hadoop权威指南第12章 Hive简介 P384

http://superlxw1234.iteye.com/blog/1545150 hive--Sort Merge Bucket Map Join

http://blog.csdn.net/yfkiss/article/details/7816916

参考连接：http://blog.csdn.net/wisgood/article/details/17186107