HBase数据模型剖析

时间 2019-11-30

标签 hbase 数据模型剖析栏目 Hadoop 繁體版

原文原文链接

出处：http://wuyudong.com/1987.htmlhtml

HBase 进行数据建模的方式和你熟悉的关系型数据库有些不一样。关系型数据库围绕表、列和数据类型——数据的形态使用严格的规则。遵照这些严格规则的数据称为结构化数据。HBase 设计上没有严格形态的数据。数据记录可能包含不一致的列、不肯定大小等。这种数据称为半结构化数据（semistructured data）。java

在逻辑模型里针对结构化或半结构化数据的导向影响了数据系统物理模型的设计。关系型数据库假定表中的记录都是结构化的和高度有规律的。所以，在物理实现时，利用这一点相应优化硬盘上的存放格式和内存里的结构。一样，HBase 也会利用所存储数据是半结构化的特色。随着系统发展，物理模型上的不一样也会影响逻辑模型。由于这种双向紧密的联系，优化数据系统必须深刻理解逻辑模型和物理模型。数据库

除了面向半结构化数据的特色外，HBase 还有另一个重要考虑因素——可扩展性。在半结构化逻辑模型里数据构成是松耦合的，这一点有利于物理分散存放。HBase 的物理模型设计上适合于物理分散存放，这一点也影响了逻辑模型。此外，这种物理模型设计迫使HBase 放弃了一些关系型数据库具备的特性。特别是，HBase 不能实施关系约束（constraint）而且不支持多行事务（multirow transaction）。这种关系影响了下面几个主题。编程

逻辑模型：有序映射的映射集合ubuntu

HBase 中使用的逻辑数据模型有许多有效的描述。图2-6 把这个模型解释为键值数据库。咱们考虑的一种描述是有序映射的映射（sorted map of maps）。你大概熟悉编程语言里的映射集合或者字典结构。能够把HBase 看作这种结构的无限的、实体化的、嵌套的版本。设计模式

咱们先来思考映射的映射这个概念。HBase 使用坐标系统来识别单元里的数据：[行键，列族，列限定符，时间版本]。例如，从users 表里取出Mark 的记录编程语言

理解映射的映射的概念时，把这些坐标从里往外看。你能够想象，开始以时间版本为键、数据为值创建单元映射，往上一层以列限定符为键、单元映射为值创建列族映射，最后以行键为键列族映射为值创建表映射。这个庞然大物用Java 描述是这样的：Map<RowKey, Map<ColumnFamily, Map<ColumnQualifier, Map<Version,Data>>>>。不算漂亮，可是简单易懂。工具

注意咱们说映射的映射是有序的。上述例子只显示了一条记录，即便如此也能够看到顺序。注意password 单元有两个时间版本。最新时间版本排在稍晚时间版本以前。HBase 按照时间戳降序排列各时间版本，因此最新数据老是在最前面。这种物理设计明显致使能够快速访问最新时间版本。其余的映射键按照升序排列。如今的例子看不到这一点，让咱们插入几行记录看看是什么样子：性能

wu@ubuntu:~/opt/twitbase$ java -cp target/twitbase-1.0.0.jar HBaseIA.TwitBase.UsersTool add HMS_Surprise "Patrick O'Brian" aubrey@sea.com abc123优化

Successfully added user <User: HMS_Surprise, Patrick O'Brian, aubrey@sea.com, 0>

wu@ubuntu:~/opt/twitbase$ java -cp target/twitbase-1.0.0.jar HBaseIA.TwitBase.UsersTool add GrandpaD "Fyodor Dostoyevsky" fyodor@brothers.net abc123

Successfully added user <User: GrandpaD, Fyodor Dostoyevsky, fyodor@brothers.net, 0>

wu@ubuntu:~/opt/twitbase$ java -cp target/twitbase-1.0.0.jar HBaseIA.TwitBase.UsersTool add SirDoyle "Sir Arthur Conan Doyle" art@TheQueensMen.co.uk abc123

Successfully added user <User: SirDoyle, Sir Arthur Conan Doyle, art@TheQueensMen.co.uk, 0>

如今再次列出Users 表的内容，能够看到：

wu@ubuntu:~/opt/twitbase$ java -cp target/twitbase-1.0.0.jar HBaseIA.TwitBase.UsersTool list

16/03/18 01:31:51 INFO TwitBase.UsersTool: Found 4 users.
<User: GrandpaD, Fyodor Dostoyevsky, fyodor@brothers.net, 0>
<User: HMS_Surprise, Patrick O'Brian, aubrey@sea.com, 0>
<User: SirDoyle, Sir Arthur Conan Doyle, art@TheQueensMen.co.uk, 0>
<User: TheRealMT, Mark Twain, samul@clemens.org, 0>

实践中，设计HBase 表模式时这种排序设计是一个关键考虑因素。这是另一个物理数据模型影响逻辑模型的地方。掌握这些细节能够帮助你在设计模式时利用这个特性。

物理模型：面向列族

就像关系型数据库同样，HBase 中的表由行和列组成。HBase 中列按照列族分组。这种分组表如今映射的映射逻辑模型中是其中一个层次。列族也表如今物理模型中。每一个列族在硬盘上有本身的HFile 集合。这种物理上的隔离容许在列族底层HFile 层面上分别进行管理。进一步考虑到合并，每一个列族的HFile 都是独立管理的。

HBase 的记录按照键值对存储在HFile 里。HFile 自身是二进制文件，不是直接可读的。存储在硬盘上HFile 里的Mark 用户数据如图2-8 所示。注意，在HFile 里Mark 这一行使用了多条记录。每一个列限定符和时间版本有本身的记录。另外，文件里没有空记录（null）。若是没有数据，HBase 不会存储任何东西。所以列族的存储是面向列的，就像其余列式数据库同样。一行中一个列族的数据不必定存放在同一个HFile 里。Mark 的info数据可能分散在多个HFile 里。惟一的要求是，一行中列族的数据须要物理存放在一块儿。

"TheRealMT" , "info" , "email" , 1329088321289 , "samuel@clemens.org"
"TheRealMT" , "info" , "name" 1329088321289 , "Mark Twain"
"TheRealMT" , "info", "password" , 1329088818321 , "abc123",
"TheRealMT" , "info" , "password", 1329088321289 , "Langhorne"

若是users 表有了另外一个列族，而且Mark 在那些列里有数据。Mark 的行也会在那些HFile 里有数据。每一个列族使用本身的HFile 意味着，当执行读操做时HBase 不须要读出一行中全部的数据，只须要读取用到列族的数据。面向列意味着当检索指定单元时，HBase 不须要读占位符（placeholder）记录。这两个物理细节有利于稀疏数据集合的高效存储和快速读取。

让咱们增长另一个列族到users 表，以存储TwitBase 网站上的活动，这会生成多个HFile。让HBase 管理整行的一整套工具如图所示。HBase 称这种机制为region，咱们在后面会讨论。

在图中能够看到，访问不一样列族的数据涉及彻底不一样的MemStore 和HFile。列族activity 数据的增加并不影响列族info 的性能。