HBase表预分区

时间 2019-11-12

标签 hbase 预分栏目 Hadoop 繁體版

原文原文链接

在建立Hbase表的时候默认一张表只有一个region，全部的put操做都会往这一个region中填充数据，当这个一个region过大时就会进行split。若是在建立HBase的时候就进行预分区则会减小当数据量猛增时因为region split带来的资源消耗。oop

HBase表的预分区须要紧密结合业务场景来选择分区的key值，每一个region都有一个startKey和一个endKey来表示该region存储的rowKey范围。spa

建立包含预分区表的命令以下：code

> create 't1', 'cf', SPLITS => ['20150501000000000', '20150515000000000', '20150601000000000']

或者

> create 't2', 'cf', SPLITS_FILE => '/home/hadoop/splitfile.txt'

/home/hadoop/splitfile.txt中存储内容以下：
20150501000000000
20150515000000000
20150601000000000

该语句会建立4个region：blog

                startkey                    endkey
region0         -                           20150501000000000
region1         20150501000000000           20150515000000000
region2         20150515000000000           20150601000000000
region3         20150601000000000           -

// region0没有startKey
// region3没有endKey

// 当put的一条数据rowKey值为20150516000000000时则会放入region2中

从HBase的Web UI中能够查看到表的分区hadoop

每一个region的命名方式以下：[table],[region start key],[region id]资源