咱们常说看一张 HBase 表设计的好很差,就看它的 RowKey 设计的好很差。可见 RowKey 在 HBase 中的地位。那么 RowKey 究竟是什么?RowKey 的特色以下:html
若是咱们的 RowKey 设计为 uid+phone+name,那么这种设计能够很好的支持如下的场景:算法
难以支持的场景:缓存
HBase 表的数据是按照 Rowkey 来分散到不一样 Region,不合理的 Rowkey 设计会致使热点问题。热点问题是大量的 Client 直接访问集群的一个或极少数个节点,而集群中的其余节点却处于相对空闲状态。微信
如上图,Region1 上的数据是 Region 2 的5倍,这样会致使 Region1 的访问频率比较高,进而影响这个 Region 所在机器的其余 Region。oop
咱们如何避免上面说到的热点问题呢?这就是这章节谈到的三种方法。ui
这里的加盐不是密码学中的加盐,而是在rowkey 的前面增长随机数。具体就是给 rowkey 分配一个随机前缀 以使得它和以前排序不一样。分配的前缀种类数量应该和你想使数据分散到不一样的 region 的数量一致。 若是你有一些 热点 rowkey 反复出如今其余分布均匀的 rwokey 中,加盐是颇有用的。考虑下面的例子:它将写请求分散到多个 RegionServers,可是对读形成了一些负面影响。spa
假如你有下列 rowkey,你表中每个 region 对应字母表中每个字母。 以 'a' 开头是同一个region, 'b'开头的是同一个region。在表中,全部以 'f'开头的都在同一个 region, 它们的 rowkey 像下面这样:操作系统
foo0001
foo0002
foo0003
foo0004
|
如今,假如你须要将上面这个 region 分散到 4个 region。你能够用4个不一样的盐:'a', 'b', 'c', 'd'.在这个方案下,每个字母前缀都会在不一样的 region 中。加盐以后,你有了下面的 rowkey:设计
a-foo0003
b-foo0001
c-foo0004
d-foo0002
|
因此,你能够向4个不一样的 region 写。理论上说,若是这四个 Region 存放在不一样的机器上,通过加盐以后你将拥有以前4倍的吞吐量。code
如今,若是再增长一行,它将随机分配a,b,c,d中的一个做为前缀,并以一个现有行做为尾部结束:
a-foo0003
b-foo0001
c-foo0003
c-foo0004
d-foo0002
|
由于分配是随机的,因此若是你想要以字典序取回数据,你须要作更多工做。加盐这种方式增长了写时的吞吐量,可是当读时有了额外代价。
Hashing 的原理是计算 RowKey 的 hash 值,而后取 hash 的部分字符串和原来的 RowKey 进行拼接。这里说的 hash 包含 MD五、sha一、sha256或sha512等算法。好比咱们有以下的 RowKey:
foo0001
foo0002
foo0003
foo0004
|
咱们使用 md5 计算这些 RowKey 的 hash 值,而后取前 6 位和原来的 RowKey 拼接获得新的 RowKey:
95f18cfoo0001
6ccc20foo0002
b61d00foo0003
1a7475foo0004
|
优缺点:能够必定程度打散整个数据集,可是不利于 Scan;好比咱们使用 md5 算法,来计算Rowkey的md5值,而后截取前几位的字符串。subString(MD5(设备ID), 0, x) + 设备ID,其中x通常取5或6。
Reversing 的原理是反转一段固定长度或者所有的键。好比咱们有如下 URL ,并做为 RowKey:
flink.iteblog.com
www.iteblog.com
carbondata.iteblog.com
def.iteblog.com
|
这些 URL 其实属于同一个域名,可是因为前面不同,致使数据不在一块儿存放。咱们能够对其进行反转,以下:
moc.golbeti.knilf
moc.golbeti.www
moc.golbeti.atadnobrac
moc.golbeti.fed
|
通过这个以后,这些 URL 的数据就能够放一块儿了。
RowKey 能够是任意的字符串,最大长度64KB(由于 Rowlength 占2字节)。建议越短越好,缘由以下:
查询某个用户的用户画像数据
其中 prefix = substr(md5(uid),0 ,x), x 取 5-6。uid、idcard以及 tele 分别表示用户惟一标识符、身份证、手机号码。
查询用户最新的操做记录或者查询用户某段时间的操做记录,RowKey 设计以下:
uid + Long.Max_Value - timestamp
支持的场景
参见 《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》
若是 RowKey 没法知足咱们的需求,能够尝试二级索引。Phoenix、Solr 以及 ElasticSearch 均可以用于构建二级索引。