使用hive储存数据时,须要对作分区,若是从kafka接收数据,将天天的数据保存一个分区(按天分区),保存分区时须要根据某个字段作动态分区,而不是傻傻的将数据写到某一个临时目录最后倒入到某一个分区,这是静态分区。测试
Hive动态分区步骤以下:spa
一、创建某一个源表模拟数据源并插入一些数据code
create table t_test_p_source ( id string, name string, birthday string ) row format delimited fields terminated by '\t' stored as textfile; insert into t_test_p_source values ('a1', 'zhangsan', '2018-01-01'); insert into t_test_p_source values ('a2', 'lisi', '2018-01-02'); insert into t_test_p_source values ('a3', 'zhangsan', '2018-01-03'); insert into t_test_p_source values ('a4', 'wangwu', '2018-01-04'); insert into t_test_p_source values ('a5', 'sanzang', '2018-01-05'); insert into t_test_p_source values ('a6', 'zhangsan2', '2018-01-01');
二、创建一张分区表 (按ds字段分区)orm
create table t_test_p_target ( id string, name string ) partitioned by (ds string) row format delimited fields terminated by '\t' stored as textfile;
三、向分区表中插入数据blog
SET hive.exec.dynamic.partition=true; #是否开启动态分区,默认是false,因此必需要设置成true SET hive.exec.dynamic.partition.mode=nonstrict; # 动态分区模式,默认为strict, 表示表中必须一个分区为静态分区,nostrict表示容许全部字段均可以做为动态分区 insert into table t_test_p_target partition (ds) select id, name, birthday as ds from t_test_p_source;
四、测试是否动态分区了get
2018-01-01这个分区只有2条数据,再来看下HDFS上的分区目录kafka
至此,hive动态分区已经完成了。string