3、HBase中rowkey的设计？

时间 2019-11-19

标签 hbase rowkey 设计栏目 Hadoop 繁體版

原文原文链接

HBase是三维有序存储的，经过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度能够对HBase中的数据进行快速定位。缓存

HBase中rowkey能够惟一标识一行记录，在HBase查询的时候，有如下几种方式：负载均衡

经过get方式，指定rowkey获取惟一一条记录
经过scan方式，设置startRow和stopRow参数进行范围匹配
全表扫描，即直接扫描整张表中全部行记录

rowkey长度原则：spa

rowkey是一个二进制码流，能够是任意字符串，最大长度 64kb ，实际应用中通常为10-100bytes，以 byte[] 形式保存，通常设计成定长。操作系统

建议越短越好，不要超过16个字节，缘由以下：设计

数据的持久化文件HFile中是按照KeyValue存储的，若是rowkey过长，好比超过100字节，1000w行数据，光rowkey就要占用100*1000w=10亿个字节，将近1G数据，这样会极大影响HFile的存储效率；
MemStore将缓存部分数据到内存，若是rowkey字段过长，内存的有效利用率就会下降，系统不能缓存更多的数据，这样会下降检索效率。
目前操做系统都是64位系统，内存8字节对齐，控制在16个字节，8字节的整数倍利用了操做系统的最佳特性。

rowkey散列原则

若是rowkey按照时间戳的方式递增，不要将时间放在二进制码的前面，建议将rowkey的高位做为散列字段，由程序随机生成，低位放时间字段，这样将提升数据均衡分布在每一个RegionServer，以实现负载均衡的概率。若是没有散列字段，首字段直接是时间信息，全部的数据都会集中在一个RegionServer上，这样在数据检索的时候负载会集中在个别的RegionServer上，形成热点问题，会下降查询效率。code

rowkey惟一原则

必须在设计上保证其惟一性，rowkey是按照字典顺序排序存储的，所以，设计rowkey的时候，要充分利用这个排序的特色，将常常读取的数据存储到一块，将最近可能会被访问的数据放到一块。排序