HBase Rowkey 设计指南

HBase Rowkey 设计指南

 

为何Rowkey这么重要

RowKey 究竟是什么

HBase Rowkey 设计指南
若是想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共账号: iteblog_hadoop

咱们常说看一张 HBase 表设计的好很差,就看它的 RowKey 设计的好很差。可见 RowKey 在 HBase 中的地位。那么 RowKey 究竟是什么?RowKey 的特色以下:html

  • 相似于 MySQL、Oracle中的主键,用于标示惟一的行;
  • 彻底是由用户指定的一串不重复的字符串;
  • HBase 中的数据永远是根据 Rowkey 的字典排序来排序的。

RowKey的做用

  • 读写数据时经过 RowKey 找到对应的 Region;
  • MemStore 中的数据按 RowKey 字典顺序排序;
  • HFile 中的数据按 RowKey 字典顺序排序。

Rowkey对查询的影响

若是咱们的 RowKey 设计为 uid+phone+name,那么这种设计能够很好的支持如下的场景:算法

  • uid = 111 AND phone = 123 AND name = iteblog
  • uid = 111 AND phone = 123
  • uid = 111 AND phone = 12?
  • uid = 111

难以支持的场景:缓存

  • phone = 123 AND name = iteblog
  • phone = 123
  • name = iteblog

Rowkey对Region划分影响

HBase 表的数据是按照 Rowkey 来分散到不一样 Region,不合理的 Rowkey 设计会致使热点问题。热点问题是大量的 Client 直接访问集群的一个或极少数个节点,而集群中的其余节点却处于相对空闲状态。微信

HBase Rowkey 设计指南
若是想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共账号: iteblog_hadoop

如上图,Region1 上的数据是 Region 2 的5倍,这样会致使 Region1 的访问频率比较高,进而影响这个 Region 所在机器的其余 Region。oop

RowKey设计技巧

咱们如何避免上面说到的热点问题呢?这就是这章节谈到的三种方法。ui

避免热点的方法 - Salting

这里的加盐不是密码学中的加盐,而是在rowkey 的前面增长随机数。具体就是给 rowkey 分配一个随机前缀 以使得它和以前排序不一样。分配的前缀种类数量应该和你想使数据分散到不一样的 region 的数量一致。 若是你有一些 热点 rowkey 反复出如今其余分布均匀的 rwokey 中,加盐是颇有用的。考虑下面的例子:它将写请求分散到多个 RegionServers,可是对读形成了一些负面影响。spa

假如你有下列 rowkey,你表中每个 region 对应字母表中每个字母。 以 'a' 开头是同一个region, 'b'开头的是同一个region。在表中,全部以 'f'开头的都在同一个 region, 它们的 rowkey 像下面这样:操作系统

foo0001
foo0002
foo0003
foo0004

如今,假如你须要将上面这个 region 分散到 4个 region。你能够用4个不一样的盐:'a', 'b', 'c', 'd'.在这个方案下,每个字母前缀都会在不一样的 region 中。加盐以后,你有了下面的 rowkey:设计

a-foo0003
b-foo0001
c-foo0004
d-foo0002

因此,你能够向4个不一样的 region 写。理论上说,若是这四个 Region 存放在不一样的机器上,通过加盐以后你将拥有以前4倍的吞吐量。code

如今,若是再增长一行,它将随机分配a,b,c,d中的一个做为前缀,并以一个现有行做为尾部结束:

a-foo0003
b-foo0001
c-foo0003
c-foo0004
d-foo0002

由于分配是随机的,因此若是你想要以字典序取回数据,你须要作更多工做。加盐这种方式增长了写时的吞吐量,可是当读时有了额外代价。

避免热点的方法 - Hashing

Hashing 的原理是计算 RowKey 的 hash 值,而后取 hash 的部分字符串和原来的 RowKey 进行拼接。这里说的 hash 包含 MD五、sha一、sha256或sha512等算法。好比咱们有以下的 RowKey:

foo0001
foo0002
foo0003
foo0004

咱们使用 md5 计算这些 RowKey 的 hash 值,而后取前 6 位和原来的 RowKey 拼接获得新的 RowKey:

95f18cfoo0001
6ccc20foo0002
b61d00foo0003
1a7475foo0004

优缺点:能够必定程度打散整个数据集,可是不利于 Scan;好比咱们使用 md5 算法,来计算Rowkey的md5值,而后截取前几位的字符串。subString(MD5(设备ID), 0, x) + 设备ID,其中x通常取5或6。

避免热点的方法 - Reversing

Reversing 的原理是反转一段固定长度或者所有的键。好比咱们有如下 URL ,并做为 RowKey:

flink.iteblog.com
www.iteblog.com
carbondata.iteblog.com
def.iteblog.com

这些 URL 其实属于同一个域名,可是因为前面不同,致使数据不在一块儿存放。咱们能够对其进行反转,以下:

moc.golbeti.knilf
moc.golbeti.www
moc.golbeti.atadnobrac
moc.golbeti.fed

通过这个以后,这些 URL 的数据就能够放一块儿了。

RowKey的长度

RowKey 能够是任意的字符串,最大长度64KB(由于 Rowlength 占2字节)。建议越短越好,缘由以下:

  • 数据的持久化文件HFile中是按照KeyValue存储的,若是rowkey过长,好比超过100字节,1000w行数据,光rowkey就要占用100*1000w=10亿个字节,将近1G数据,这样会极大影响HFile的存储效率;
  • MemStore将缓存部分数据到内存,若是rowkey字段过长,内存的有效利用率就会下降,系统不能缓存更多的数据,这样会下降检索效率;
  • 目前操做系统都是64位系统,内存8字节对齐,控制在16个字节,8字节的整数倍利用了操做系统的最佳特性。

RowKey 设计案例剖析

交易类表 Rowkey 设计

  • 查询某个卖家某段时间内的交易记录
    sellerId + timestamp + orderId
  • 查询某个买家某段时间内的交易记录
    buyerId + timestamp +orderId
  • 根据订单号查询
    orderNo
  • 若是某个商家卖了不少商品,能够以下设计 Rowkey 实现快速搜索
    salt + sellerId + timestamp 其中,salt 是随机数。
    能够支持的场景:

     

    • 全表 Scan
    • 按照 sellerId 查询
    • 按照 sellerId + timestamp 查询

金融风控 Rowkey 设计

查询某个用户的用户画像数据

  • prefix + uid
  • prefix + idcard
  • prefix + tele

其中 prefix = substr(md5(uid),0 ,x), x 取 5-6。uid、idcard以及 tele 分别表示用户惟一标识符、身份证、手机号码。

车联网 Rowkey 设计

  • 查询某辆车在某个时间范围的交易记录
    carId + timestamp
  • 某批次的车太多,形成热点
    prefix + carId + timestamp 其中 prefix = substr(md5(uid),0 ,x)

查询最近的数据

查询用户最新的操做记录或者查询用户某段时间的操做记录,RowKey 设计以下:
uid + Long.Max_Value - timestamp
支持的场景

  • 查询用户最新的操做记录
    Scan [uid] startRow [uid][000000000000] stopRow [uid][Long.Max_Value - timestamp]
  • 查询用户某段时间的操做记录
    Scan [uid] startRow [uid][Long.Max_Value – startTime] stopRow [uid][Long.Max_Value - endTime]

OpenTSDB 的 Rowkey 设计

参见 《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》

若是 RowKey 没法知足咱们的需求,能够尝试二级索引。Phoenix、Solr 以及 ElasticSearch 均可以用于构建二级索引。

相关文章
相关标签/搜索