1.1-1.3 HBase入门

时间 2019-11-29

标签 1.1 1.3 hbase 入门栏目 Hadoop 繁體版

原文原文链接

1、HBASE入门html

部分参考连接：http://www.javashuo.com/article/p-ctgbupvo-ey.html数据库

一、简介apache

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase是Google BigTable的开源实现，与Google BigTable利用GFS做为其文件存储系统相似，HBase利用Hadoop HDFS做为其文件存储系统；
Google运行MapReduce来处理BigTable中的海量数据，HBase一样利用Hadoop MapReduce来处理HBase中的海量数据；
Google BigTable利用Chubby做为协同服务，HBase利用Zookeeper做为协同服务。数组



官网版本：http://archive.apache.org/dist/hbase/

CDH版本(稳定,推荐)：http://archive.cloudera.com/cdh5/


##
HBase的用途：
    海量数据存储
    准实时查询

HBase的应用场景及特色：
    交通
    金融
    电商
    移动（电话信息）等

二、HBASE的特色缓存

HBase的特色：
一、
容量大
HBase单表能够有上百亿行、百万列，数据矩阵横向和纵向两个维度所支持的数据量级都很是具备弹性。 


2.、面向列
HBase是面向列的存储和权限控制，并支持独立检索。列式存储，其数据在表中是按照某列存储的，这样在查询只须要少数几个字段的时候，
能大大减小读取的数据量。


多版本
HBase每个列的数据存储有多个Version（version）。

稀疏性
为空的列并不占用存储空间，表能够设计的很是稀疏。

扩展性
底层依赖于HDFS

高可靠性
WAL机制保证了数据写入时不会因集群异常而致使写入数据丢失：Replication机制保证了在集群出现严重的问题时，数据不会发生丢失或损坏。
并且HBase底层使用HDFS，HDFS自己也有备份。


三、高性能
底层的LSM数据结构和Rowkey有序排列等架构上的独特设计，使得HBase具备很是高的写入性能。region切分、主键索引和缓存机制使得HBase在
海量数据下具有必定的随机读取性能，该性能针对Rowkey的查询可以达到毫秒级别。

2、HBASE架构体系安全

一、网络

HBase中的每一张表就是所谓的BigTable。BigTable会存储一系列的行记录，行记录有三个基本类型的定义：
   RowKey：
            是行在BigTable中的惟一标识。

   TimeStamp：
            是每一次数据操做对应关联的时间戳，能够看做SVN的版本。

   Columns family列簇：
            定义为<family>:<label>，经过这两部分能够指定惟一的数据的存储列，family的定义和修改须要对HBase进行相似于DB的DDL操做，
            而label，不须要定义直接可使用，这也为动态定制列提供了一种手段。family另外一个做用体如今物理存储优化读写操做上，同family
            的数据物理上保存的会比较接近，所以在业务设计的过程当中能够利用这个特性。



##
RowKey
与NoSQL数据库同样，rowkey是用来检索记录的主键。访问HBase Table中的行，只有三种方式：
经过单个rowkey访问；

经过rowkey的range；

全表扫描
          rowkey行键能够任意字符串（最大长度64KB，实际应用中长度通常为10-100bytes），在HBase内部RowKey保存为字节数组。
          存储时，数据按照RowKey的字典序（byte order）排序存储，设计key时，要充分了解这个特性，将常常一块儿读取的行存放在一块儿。
          须要注意的是：行的一次读写是原子操做（不论一次读写多少列）
 
        列簇
            HBase表中的每一个列，都归属于某个列簇，列簇是表的schema的一部分（而列不是），必须在使用表以前定义。列名都以列簇做为前缀。例如：
            courses:history,  courses:math 都属于 courses 这个列簇。
            访问控制，磁盘和内存的使用统计都是在列簇层面进行的。
            实际应用中，列簇上的控制权限能帮助咱们管理不一样类型的应用：咱们容许一些应用能够添加新的基本数据、
            一些应用能够读取基本数据并建立继承的列簇、一些应用则只容许浏览数据（设置可能由于隐私的缘由不能浏览全部数据）。

        时间戳
            HBase中经过row和columns肯定的为一个存储单元称为cell。每一个cell都保存着同一份数据的多个版本。版本经过时间戳来索引。
            时间戳的类型是64位整型。时间戳能够由HBase在写入时自动赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也能够由客户显示赋值。
            若是应用程序要避免数据版本冲突，就必须本身生成具备惟一性的时间戳。每一个cell中在不一样版本的数据按照时间倒序排序，即最新的数据排在最前面。
            为了不数据存在过多的版本形成的管理负担，HBase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本
          （好比最近七天）。用户能够针对每一个列簇进行设置。
            
        Cell
            由{row key, columnFamily, version} 惟一肯定的单元。cell中的数据是没有类型的，所有是字节码形式存储。

二、HBASE存储架构数据结构

Table在行的方向上分割为多个HRegion，每一个HRegion分散在不一样的RegionServer中。

每一个HRegion由多个Store构成，每一个Store由一个MemStore和0或多个StoreFile组成，每一个Store保存一个Columns Family

StoreFile以HFile格式存储在HDFS中。

从HBase的架构图上能够看出，HBase中的存储包括HMaster、HRegionSever、HRegion、HLog、Store、MemStore、StoreFile、HFile等，如下是HBase存储架构图：
架构

HBase中的每张表都经过键按照必定的范围被分割成多个子表（HRegion），默认一个HRegion超过256M就要被分割成两个，这个过程由HRegionServer管理，
而HRegion的分配由HMaster管理。
 
HMaster的做用：
    为HRegionServer分配HRegion；
    负责HRegionServer的负载均衡；
    发现失效的HRegionServer并从新分配；
    HDFS上的垃圾文件回收；
    处理Schema更新请求；
 
HRegionServer的做用：
    维护HMaster分配给它的HRegion，处理对这些HRegion的IO请求；
    负责切分正在运行过程当中变得过大的HRegion；
 
能够看到，Client访问HBase上的数据并不须要HMaster参与，寻址访问ZooKeeper和HRegionServer，数据读写访问HRegionServer，
HMaster仅仅维护Table和Region的元数据信息，Table的元数据信息保存在ZooKeeper上，负载很低。HRegionServer存取一个子表时，
会建立一个HRegion对象，而后对表的每一个列簇建立一个Store对象，每一个Store都会有一个MemStore和0或多个StoreFile与之对应，
每一个StoreFile都会对应一个HFile，HFile就是实际的存储文件。所以，一个HRegion有多少列簇就有多少个Store。
 一个HRegionServer会有多个HRegion和一个HLog。
 
HRegion
Table在行的方向上分割为多个HRegion，HRegion是HBase中分布式存储和负载均衡的最小单元，即不一样的HRegion能够分别在不一样的HRegionServer上，
但同一个HRegion是不会拆分到多个HRegionServer上的。HRegion按大小分割，每一个表通常只有一个HRegion，随着数据不断插入表，HRegion不断增大，
当HRegion的某个列簇达到一个阀值（默认256M）时就会分红两个新的HRegion。
 
一、<表名，StartRowKey, 建立时间>
二、由目录表(-ROOT-和.META.)记录该Region的EndRowKey
 
HRegion定位：HRegion被分配给哪一个HRegionServer是彻底动态的，因此须要机制来定位HRegion具体在哪一个HRegionServer，HBase使用三层结构来定位HRegion：
        一、经过zk里的文件/hbase/rs获得-ROOT-表的位置。-ROOT-表只有一个region。
        二、经过-ROOT-表查找.META.表的第一个表中相应的HRegion位置。其实-ROOT-表是.META.表的第一个region；
             .META.表中的每个Region在-ROOT-表中都是一行记录。
        三、经过.META.表找到所要的用户表HRegion的位置。用户表的每一个HRegion在.META.表中都是一行记录。
 
        -ROOT-表永远不会被分隔为多个HRegion，保证了最多须要三次跳转，就能定位到任意的region。Client会将查询的位置信息保存缓存起来，缓存不会主动失效，
        所以若是Client上的缓存所有失效，则须要进行6次网络来回，才能定位到正确的HRegion，其中三次用来发现缓存失效，另外三次用来获取位置信息。
 
Store
        每个HRegion由一个或多个Store组成，至少是一个Store，HBase会把一块儿访问的数据放在一个Store里面，即为每一个ColumnFamily建一个Store，
        若是有几个ColumnFamily，也就有几个Store。一个Store由一个MemStore和0或者多个StoreFile组成。 HBase以Store的大小来判断是否须要切分HRegion。
 
 
MemStore
        MemStore 是放在内存里的，保存修改的数据即keyValues。当MemStore的大小达到一个阀值（默认64MB）时，MemStore会被Flush到文件，
        即生成一个快照。目前HBase会有一个线程来负责MemStore的Flush操做。
 
　　
StoreFile
　    MemStore内存中的数据写到文件后就是StoreFile，StoreFile底层是以HFile的格式保存。

HFile
　　 HBase中KeyValue数据的存储格式，是Hadoop的二进制格式文件。 首先HFile文件是不定长的，长度固定的只有其中的两块：Trailer和FileInfo。
        Trailer中有指针指向其余数据块的起始点，FileInfo记录了文件的一些meta信息。Data Block是HBase IO的基本单元，为了提升效率，
        HRegionServer中有基于LRU的Block Cache机制。每一个Data块的大小能够在建立一个Table的时候经过参数指定（默认块大小64KB），
        大号的Block有利于顺序Scan，小号的Block利于随机查询。每一个Data块除了开头的Magic之外就是一个个KeyValue对拼接而成，
        Magic内容就是一些随机数字，目的是防止数据损坏，结构以下。

HFile结构图以下：负载均衡

Data Block段用来保存表中的数据，这部分能够被压缩。 Meta Block段（可选的）用来保存用户自定义的kv段，能够被压缩。 FileInfo段用来保存HFile的元信息，不能被压缩，用户也能够在这一部分添加本身的元信息。

Data Block Index段（可选的）用来保存Meta Blcok的索引。 Trailer这一段是定长的。保存了每一段的偏移量，读取一个HFile时，会首先读取Trailer，Trailer保存了每一个段的起始位置(段的Magic Number用来作安全check)，

而后，DataBlock Index会被读取到内存中，这样，当检索某个key时，不须要扫描整个HFile，而只需从内存中找到key所在的block，经过一次磁盘io将整个 block读取到内存中，再找到须要的key。DataBlock Index采用LRU机制淘汰。

HFile的Data Block，Meta Block一般采用压缩方式存储，压缩以后能够大大减小网络IO和磁盘IO，随之而来的开销固然是须要花费cpu进行压缩和解压缩。（备注： DataBlock Index的缺陷。 a) 占用过多内存　b) 启动加载时间缓慢）

HLog 
　　HLog(WAL log)：WAL意为write ahead log，用来作灾难恢复使用，HLog记录数据的全部变动，一旦region server 宕机，就能够从log中进行恢复。 
 
LogFlusher 
　　按期的将缓存中信息写入到日志文件中 
 
LogRoller　 
　 　对日志文件进行管理维护

1. jquery-1.11.3.js与jquery-1.11.3.min.js区别
2. Hbase入门
3. HBase入门
4. HBase入门篇
5. HBase入门(二)
6. HBASE入门
7. Hbase入门(一)——初识Hbase
8. HBase（一）HBase入门简介
9. HBase第一天——HBase入门
10. 【HBase】HBase入门详解（五）
更多相关文章...
• Memcached入门教程 - NoSQL教程
• Neo4j数据库入门教程 - NoSQL教程
• YAML 入门教程
• Java Agent入门实战（一）-Instrumentation介绍与使用