大数据（HBase-应用场景、原理与基本架构）

时间 2019-11-07

标签数据 hbase 应用场景原理基本架构栏目 Hadoop 繁體版

原文原文链接

Hbase概述

HBase是一个构建在HDFS上的分布式列存储系统；数据库

HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储服务器

从逻辑上讲， HBase将数据按照表、行和列进行存储。架构

Hbase是Hadoop生态系统的一个组成部分并发

Hbase与HDFS对比负载均衡

二者都具备良好的容错性和扩展性，均可以扩展到成百上千个节点；分布式

HDFS适合批处理场景
   不支持数据随机查找
   不适合增量数据处理
   不支持数据更新高并发

Hbase表的特色oop

大：一个表能够有数十亿行，上百万列；大数据

无模式：每行都有一个可排序的主键和任意多的列，列能够根据须要动态的增长，同一张表中不一样的行能够有大相径庭的列；spa

面向列：面向列（族）的存储和权限控制，列（族）独立检索；

稀疏：对于空（ null）的列，并不占用存储空间，表能够设计的很是稀疏；

数据多版本：每一个单元中的数据能够有多个版本，默认状况下版本号自动分配，是单元格插入时的时间戳；

数据类型单一： Hbase中的数据都是字符串，没有类型

行存储与列存储

数据是按行存储的
没有索引的查询使用大量I/O
创建索引须要花费大量时间和资源

    数据是按列存储-每一列单独存放
    数据便是索引
    指访问查询涉及的列-大量下降系统I/O
    每一列由一个线索来处理-查询的并发处理
    数据类型一致，数据特征类似-高效压缩

Hbase数据模型

HBase是基于Google BigTable模型开发的，典型的key/value系统；

Hbase逻辑视图

Rowkey与Column Family

Hbase基本概念

Row Key
Byte array
表中每条记录的“主键”
方便快速查找

Column Family
拥有一个名称(string)
包含一个或者多个相关列

Column
属于某一个column family
包含在某一列中
familyName:columnName

Version Number
默认值系统时间戳

Value（cell）
Byte array

Hbase数据模型

HBase schema能够有多个相似Table
每一个表可由多个Column Family组成
Hbase能够有Dynamic Column

version number 可由用户提供
无需以递增的顺序插入
Table可能很是稀疏
不一样的cell能够拥有不一样的列
Row Key是主键

Hbase与支持的操做

全部操做均是基于rowkey的；
支持CRUD（Create、Read、Update和Delete）和Scan；
单行操做
put
get
scan
多行操做
Scan
Multiput
没有内置join操做，可以使用MapReduce解决

Hbase物理模型

每一个column family存储在HDFS上的一个单独文件中；
Key 和 Version number在每一个 column family中均由一份；
空值不会被保存。
Hbase为每一个值维护了多级索引

一个实例

物理存储

一、 Table中的全部行都按照row key的字典序排列；
二、 Table 在行的方向上分割为多个Region；

三、 Region按大小分割的，每一个表开始只有一个region，随着数据增多， region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region，以后会有愈来愈多的region；

4 、 Region是HBase中分布式存储和负载均衡的最小单元。不一样Region分布到不一样RegionServer上；

5 、 Region虽然是分布式存储的最小单元，但并非存储的最小单元
Region由一个或者多个Store组成，每一个store保存一个columns family
每一个Store又由一个memStore和0至多个StoreFile组成；
memStore存储在内存中， StoreFile存储在HDFS上。

HBase架构

Hbase基本组件

Client
包含访问Hbase的接口，并维护cache来加快对Hbase的访问
ZooKeeper
保证任什么时候候，集群中只有一个master
存贮全部Region的寻址入口
实时监控Region server的上线和下线信息。并实时通知给Master
存储HBase的schema和table元数据
Master
为Region server分配region
负责Region server的负载均衡
发现失效的Region server并从新分配其上的region
管理用户对table的增删改查操做
Region Server
Region server维护region，处理对这些region的IO请求
Region server负责切分在运行过程当中变得过大的region

Zookeeper做用

HBase 依赖ZooKeeper
默认状况下， HBase 管理ZooKeeper 实例
好比，启动或者中止ZooKeeper
Master与RegionServers启动时会向ZooKeeper注册
Zookeeper的引入使得Master再也不是单点故障

Write-Ahead-Log（ WAL）

Hbase容错性

Master容错： Zookeeper从新选择一个新的Master
无Master过程当中，数据读取仍照常进行；
无master过程当中， region切分、负载均衡等没法进行；
RegionServer容错：定时向Zookeeper汇报心跳，若是一旦时间内未出现心跳
Master将该RegionServer上的Region从新分配到其余RegionServer上；
失效服务器上“预写”日志由主服务器进行分割并派送给新的RegionServer
Zookeeper容错： Zookeeper是一个可靠地服务
通常配置3或5个Zookeeper实例。

Region定位

寻找RegionServer
ZooKeeper
-ROOT-(单Region)
.META.
用户表

-ROOT-表与.META.表

-ROOT-
表包含.META.表所在的region列表，该表只会有一个Region；
Zookeeper中记录了-ROOT-表的location。
.META.
表包含全部的用户空间region列表，以及RegionServer的服务器地址。

HDFS与Hbase比较

关系数据库与Hbase比较

什么时候使用Hbase

需对数据进行随机读操做或者随机写操做；
大数据上高并发操做，好比每秒对PB级数据进行上千次操做；
读写访问均是很是简单的操做。

什么公司在使用Hbase

国外有facebook，twitter，yahoo等国内有阿里巴巴，百度，360等一些公司

Hbase在淘宝的应用

交易历史记录查询系统百亿行数据表，千亿级二级索引表天天千万行更新查询场景简单，检索条件较少关系型数据库所带来的问题基于userId+time+id rowkey设计成本考虑