HBase Rowkey 设计指南

时间 2020-06-02

标签 hbase rowkey 设计指南栏目 Hadoop 繁體版

原文原文链接

HBase Rowkey 设计指南

为何Rowkey这么重要

RowKey 究竟是什么

若是想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共账号： iteblog_hadoop

咱们常说看一张 HBase 表设计的好很差，就看它的 RowKey 设计的好很差。可见 RowKey 在 HBase 中的地位。那么 RowKey 究竟是什么？RowKey 的特色以下：html

相似于 MySQL、Oracle中的主键，用于标示惟一的行；
彻底是由用户指定的一串不重复的字符串；
HBase 中的数据永远是根据 Rowkey 的字典排序来排序的。

RowKey的做用

读写数据时经过 RowKey 找到对应的 Region；
MemStore 中的数据按 RowKey 字典顺序排序；
HFile 中的数据按 RowKey 字典顺序排序。

Rowkey对查询的影响

若是咱们的 RowKey 设计为 uid+phone+name，那么这种设计能够很好的支持如下的场景：算法

uid = 111 AND phone = 123 AND name = iteblog
uid = 111 AND phone = 123
uid = 111 AND phone = 12?
uid = 111

难以支持的场景：缓存

phone = 123 AND name = iteblog
phone = 123
name = iteblog

Rowkey对Region划分影响

HBase 表的数据是按照 Rowkey 来分散到不一样 Region，不合理的 Rowkey 设计会致使热点问题。热点问题是大量的 Client 直接访问集群的一个或极少数个节点，而集群中的其余节点却处于相对空闲状态。微信

若是想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共账号： iteblog_hadoop

如上图，Region1 上的数据是 Region 2 的5倍，这样会致使 Region1 的访问频率比较高，进而影响这个 Region 所在机器的其余 Region。oop

RowKey设计技巧

咱们如何避免上面说到的热点问题呢？这就是这章节谈到的三种方法。ui

避免热点的方法 - Salting

这里的加盐不是密码学中的加盐，而是在rowkey 的前面增长随机数。具体就是给 rowkey 分配一个随机前缀以使得它和以前排序不一样。分配的前缀种类数量应该和你想使数据分散到不一样的 region 的数量一致。若是你有一些热点 rowkey 反复出如今其余分布均匀的 rwokey 中，加盐是颇有用的。考虑下面的例子：它将写请求分散到多个 RegionServers，可是对读形成了一些负面影响。spa

假如你有下列 rowkey，你表中每个 region 对应字母表中每个字母。以 'a' 开头是同一个region, 'b'开头的是同一个region。在表中，全部以 'f'开头的都在同一个 region，它们的 rowkey 像下面这样：操作系统

foo0001

foo0002

foo0003

foo0004

如今，假如你须要将上面这个 region 分散到 4个 region。你能够用4个不一样的盐：'a', 'b', 'c', 'd'.在这个方案下，每个字母前缀都会在不一样的 region 中。加盐以后，你有了下面的 rowkey:设计

a-foo0003

b-foo0001

c-foo0004

d-foo0002

因此，你能够向4个不一样的 region 写。理论上说，若是这四个 Region 存放在不一样的机器上，通过加盐以后你将拥有以前4倍的吞吐量。code

如今，若是再增长一行，它将随机分配a,b,c,d中的一个做为前缀，并以一个现有行做为尾部结束：

a-foo0003

b-foo0001

c-foo0003

c-foo0004

d-foo0002

由于分配是随机的，因此若是你想要以字典序取回数据，你须要作更多工做。加盐这种方式增长了写时的吞吐量，可是当读时有了额外代价。

避免热点的方法 - Hashing

Hashing 的原理是计算 RowKey 的 hash 值，而后取 hash 的部分字符串和原来的 RowKey 进行拼接。这里说的 hash 包含 MD五、sha一、sha256或sha512等算法。好比咱们有以下的 RowKey：

foo0001

foo0002

foo0003

foo0004

咱们使用 md5 计算这些 RowKey 的 hash 值，而后取前 6 位和原来的 RowKey 拼接获得新的 RowKey：

95f18cfoo0001

6ccc20foo0002

b61d00foo0003

1a7475foo0004

优缺点：能够必定程度打散整个数据集，可是不利于 Scan；好比咱们使用 md5 算法，来计算Rowkey的md5值，而后截取前几位的字符串。subString(MD5(设备ID), 0, x) + 设备ID，其中x通常取5或6。

避免热点的方法 - Reversing

Reversing 的原理是反转一段固定长度或者所有的键。好比咱们有如下 URL ，并做为 RowKey：

flink.iteblog.com

www.iteblog.com

carbondata.iteblog.com

def.iteblog.com

这些 URL 其实属于同一个域名，可是因为前面不同，致使数据不在一块儿存放。咱们能够对其进行反转，以下：

moc.golbeti.knilf

moc.golbeti.www

moc.golbeti.atadnobrac

moc.golbeti.fed

通过这个以后，这些 URL 的数据就能够放一块儿了。

RowKey的长度

RowKey 能够是任意的字符串，最大长度64KB（由于 Rowlength 占2字节）。建议越短越好，缘由以下：

数据的持久化文件HFile中是按照KeyValue存储的，若是rowkey过长，好比超过100字节，1000w行数据，光rowkey就要占用100*1000w=10亿个字节，将近1G数据，这样会极大影响HFile的存储效率；
MemStore将缓存部分数据到内存，若是rowkey字段过长，内存的有效利用率就会下降，系统不能缓存更多的数据，这样会下降检索效率；
目前操做系统都是64位系统，内存8字节对齐，控制在16个字节，8字节的整数倍利用了操做系统的最佳特性。

RowKey 设计案例剖析

交易类表 Rowkey 设计

查询某个卖家某段时间内的交易记录
sellerId + timestamp + orderId
查询某个买家某段时间内的交易记录
buyerId + timestamp ＋orderId
根据订单号查询
orderNo
若是某个商家卖了不少商品，能够以下设计 Rowkey 实现快速搜索
salt + sellerId + timestamp 其中，salt 是随机数。
能够支持的场景：
- 全表 Scan
- 按照 sellerId 查询
- 按照 sellerId + timestamp 查询

金融风控 Rowkey 设计

查询某个用户的用户画像数据

prefix + uid
prefix + idcard
prefix + tele

其中 prefix = substr(md5(uid),0 ,x)， x 取 5-6。uid、idcard以及 tele 分别表示用户惟一标识符、身份证、手机号码。

车联网 Rowkey 设计

查询某辆车在某个时间范围的交易记录
carId + timestamp
某批次的车太多，形成热点
prefix + carId + timestamp 其中 prefix = substr(md5(uid),0 ,x)

查询最近的数据

查询用户最新的操做记录或者查询用户某段时间的操做记录，RowKey 设计以下：
uid + Long.Max_Value - timestamp
支持的场景

查询用户最新的操做记录
Scan [uid] startRow [uid][000000000000] stopRow [uid][Long.Max_Value - timestamp]
查询用户某段时间的操做记录
Scan [uid] startRow [uid][Long.Max_Value – startTime] stopRow [uid][Long.Max_Value - endTime]

OpenTSDB 的 Rowkey 设计

参见《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》

若是 RowKey 没法知足咱们的需求，能够尝试二级索引。Phoenix、Solr 以及 ElasticSearch 均可以用于构建二级索引。