hbase实践之数据读取详解

hbase基本存储组织结构与数据读取组织结构对比

image

image

Segment是Hbase2.0的概念,MemStore由一个可写的Segment,以及一个或多个不可写的Segments构成。故hbase 1.*版本中的MemstoreScanner变成了SegmentScanner。算法

对应关系表sql

Hbase存储结构 Hbase Scanner体系
Region RegionScanner
Store StoreScanner
Memstore SegmentScanner(memstore级别)
Storefile StorefileScanner

hbase scanner体系与hbase存储组织结构是一一对应的。nosql

hbase写入数据的特色

  1. flush 写磁盘时,不一样ColumnFamily生成不一样Hfile。
  2. 数据采用追加方式写入,在major compaction才发生数据删除或失效。数据的多个版本都会记录在hfile,数据删除也会生成一条记录,只是keytype标记为delete。

数据读取过程详解

数据真正的读取过程只发生在StorefileScanner,其余scanner只是帮助缩小查找范围,相似于多级索引体系。blog

storefilescanner的读取抽象过程如图所示:
image索引

  1. 组织priorityqueue: 将包含rowkey的hfile文件组织成一个最小堆。最小堆的第一个元素通常是Memstore,从SegmentScanner(MemstoreScanner)开始。
  2. 根据过滤条件:Rowkey、ColumnFamily、Column等,从当前Scanner依次读取cell(keyvalue)数据;
  3. 当前Scanner数据扫描结束,扫描下一个Scanner,当前Scanner放到堆尾。

StoreFileScanner中的数据读取细节

要想知道读取细节,首先须要了解HFile的结构:get

image

数据根据索引Root Index Block、Leaf Index Block,定位DataBlock。在64k大小的DataBlock中,能够根据二分查找等算法,定位到数据。it

参考文献

相关文章
相关标签/搜索