Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase)

声明:做者原创,转载注明出处。

做者:帅气陈吃苹果java

1、服务器环境

主机名 IP 用户名 密码 安装目录
master188 192.168.29.188 hadoop hadoop /home/hadoop/
master189 192.168.29.189 hadoop hadoop /home/hadoop/
slave190 192.168.29.190 hadoop hadoop /home/hadoop/

2、集群规划

master188 master189 slave190
NameNode NameNode
DataNode DataNode DataNode
Zookeeper Zookeeper Zookeeper
ResourceManager ResourceManager
NodeManager NodeManager NodeManager
HMaster HMasetr
RegionServer RegionServer RegionServer

JDK、Hadoop、HBase版本兼容性(NS:不兼容;NT:未测试;Y:兼容):

HBase Version JDK 6 JDK 7 JDK 8
2.0 X X Y
1.3 X Y Y
1.2 X Y Y
1.1 X Y NT
1.0 X Y NT
0.98 Y Y NT
0.94 Y Y N
HadoopHBase HBase-1.1.x HBase-1.2.x HBase-1.3.x HBase-2.0.x
Hadoop-2.0.x-alpha X X X X
Hadoop-2.1.0-beta X X X X
Hadoop-2.2.0 NT X X X
Hadoop-2.3.x NT X X X
Hadoop-2.4.x Y Y Y X
Hadoop-2.5.x Y Y Y X
Hadoop-2.6.0 X X X X
Hadoop-2.6.1+ NT Y Y Y
Hadoop-2.7.0 X X X X
Hadoop-2.7.1+ NT Y Y Y
Hadoop-2.8.0 X X X X
Hadoop-2.8.1 X X X X
Hadoop-3.0.0-alphax NT NT NT NT

考虑到HBase与JDK、Hadoop各版本兼容性,咱们采用的组件版本以下:node

组件 版本
JDK 1.8
Hadoop 2.6.5
Zookeeper 3.4.11
HBase 1.3.1

3、安装配置Zookeeper

一、下载及安装

下载地址:http://mirrors.hust.edu.cn/ap...web

在master188机器上,下载后解压到/home/hadoop/目录下:shell

tar -zxvf zookeeper-3.4.11.tar.gz -C /home/hadoop/

二、拷贝 zoo_sample.cfg

进入zookeeper的conf目录,拷贝zoo_sample.cfg并重命名为zoo.cfg数据库

cd zookeeper-3.4.11/conf/

cp zoo_sample.cfg zoo.cfg

三、修改 zoo.cfg

vi zoo.cfg

修改以下,若原文件没有dataDir则直接添加:apache

dataDir=/home/hadoop/zookeeper-3.4.11/data/zkData

//在最后添加,指定zookeeper集群主机及端口,机器数必须为奇数
server.1=master188:2888:3888
server.2=master189:2888:3888
server.3=slave190:2888:3888

四、建立并编辑myid

//在zookeeper根目录下建立zoo.cfg中配置的目录
mkdir data/zkData/ -p

//建立并编辑文件
vi myid

//输入1,即表示当前机器为在zoo.cfg中指定的server.1
1

//保存退出
:wq

五、拷贝zookeeper到其余机器

上述操做是在master188机器上进行的,要将zookeeper拷贝到其余zookeeper集群机器上:bootstrap

cd /home/hadoop

scp -r zookeeper-3.4.11/ hadoop@master189:/home/hadoop/

scp -r zookeeper-3.4.11/ hadoop@slave190:/home/hadoop/

集群中各组件的安装目录最好保持一致。浏览器

六、修改其余机器的myid文件

myid文件是做为当前机器在zookeeper集群的标识,这些标识在zoo.cfg文件中已经配置好了,可是以前在master188这台机器上配置的myid为1,因此还须要修改其余机器的myid文件:bash

//在master189机器上
echo 2 > /home/hadoop/zookeeper-3.4.11/data/zkData/myid
//在slave190机器上
echo 3 > /home/hadoop/zookeeper-3.4.11/data/zkData/myid

七、启动zookeeper集群

cd zookeeper-3.4.11/bin/
//分别在master18八、master18九、slave190上启动
./zkServer.sh start

//查看状态
./zkServer.sh status

三台机器的zookeeper状态必须只有一个leader,其余都是follower服务器

//查看进程,如有QuorumpeerMain,则启动成功
jps

4、安装配置Hadoop

一、下载及安装

下载地址:http://mirrors.hust.edu.cn/ap...

在master88机器上,解压到/home/hadoop/目录下:

tar -zxcf hadoop-2.6.5.tar.gz -C /home/hadoop/

二、配置

进入配置文件目录,修改配置文件

cd hadoop-2.6.5/etc/hadoop/
1)vi hadoop-env.sh

配置JDK安装路径:

JAVA_HOME=/opt/jdk
2)vi core-site.xml
<configuration>
  <!-- hdfs地址,ha模式中是链接到nameservice  -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://ns1</value>
  </property>
  <!-- 这里的路径默认是NameNode、DataNode、JournalNode等存放数据的公共目录,也能够单独指定 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/hadoop-2.6.5/tmp</value>
  </property>

  <!-- 指定ZooKeeper集群的地址和端口。注意,数量必定是奇数,且很多于三个节点-->
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>master188:2181,master189:2181,slave190:2181</value>
  </property>

</configuration>
3)vi hdfs-site.xml
<configuration>
  <!-- 指定副本数,不能超过机器节点数  -->
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>

  <!-- 为namenode集群定义一个services name -->
  <property>
    <name>dfs.nameservices</name>
    <value>ns1</value>
  </property>

  <!-- nameservice 包含哪些namenode,为各个namenode起名 -->
  <property>
    <name>dfs.ha.namenodes.ns1</name>
    <value>master188,master189</value>
  </property>

  <!-- 名为master188的namenode的rpc地址和端口号,rpc用来和datanode通信 -->
  <property>
    <name>dfs.namenode.rpc-address.ns1.master188</name>
    <value>master188:9000</value>
  </property>

  <!-- 名为master189的namenode的rpc地址和端口号,rpc用来和datanode通信 -->
  <property>
    <name>dfs.namenode.rpc-address.ns1.master189</name>
    <value>master189:9000</value>
  </property>

  <!--名为master188的namenode的http地址和端口号,用来和web客户端通信 -->
  <property>
    <name>dfs.namenode.http-address.ns1.master188</name>
    <value>master188:50070</value>
  </property>

  <!-- 名为master189的namenode的http地址和端口号,用来和web客户端通信 -->
  <property>
    <name>dfs.namenode.http-address.ns1.master189</name>
    <value>master189:50070</value>
  </property>
  
  <!-- namenode间用于共享编辑日志的journal节点列表 -->
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://master188:8485;master189:8485;slave190:8485/ns1</value>
  </property>

  <!-- 指定该集群出现故障时,是否自动切换到另外一台namenode -->
  <property>
    <name>dfs.ha.automatic-failover.enabled.ns1</name>
    <value>true</value>
  </property>

  <!-- journalnode 上用于存放edits日志的目录 -->
  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/home/hadoop/hadoop-2.6.5/tmp/data/dfs/journalnode</value>
  </property>

  <!-- 客户端链接可用状态的NameNode所用的代理类 -->
  <property>
    <name>dfs.client.failover.proxy.provider.ns1</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>

  <!-- 一旦须要NameNode切换,使用ssh方式进行操做 -->
  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
  </property>

  <!-- 若是使用ssh进行故障切换,使用ssh通讯时用的密钥存储的位置 -->
  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/hadoop/.ssh/id_rsa</value>
  </property>

  <!-- connect-timeout超时时间 -->
  <property>
    <name>dfs.ha.fencing.ssh.connect-timeout</name>
    <value>30000</value>
  </property>
</configuration>
4)vi mapred-site.xml
<!-- 采用yarn做为mapreduce的资源调度框架 -->
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
5)vi yarn-site.xml
<configuration>

  <!-- 启用HA高可用性 -->
  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
  </property>

  <!-- 指定resourcemanager的名字 -->
  <property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>yrc</value>
  </property>

  <!-- 使用了2个resourcemanager,分别指定Resourcemanager的地址 -->
  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
  </property>
  
  <!-- 指定rm1的地址 -->
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>master188</value>
  </property>
  
  <!-- 指定rm2的地址  -->
  <property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>master189</value>
  </property>
  
  <!-- 指定当前机器master188做为rm1 -->
  <property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm1</value>
  </property>
  
  <!-- 指定zookeeper集群机器 -->
  <property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>master188:2181,master189:2181,slave190:2181</value>
  </property>
  
  <!-- NodeManager上运行的附属服务,默认是mapreduce_shuffle -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>

</configuration>
6)vi slaves
master188
master189
slave190

三、拷贝hadoop到其余机器

1)拷贝
scp -r hadoop-2.6.5 hadoop@master189:/home/hadoop/

scp -r hadoop-2.6.5 hadoop@slave190:/home/hadoop/
2)修改yarn-site.xml

在master189机器,即ResourceManager备用主节点上修改以下属性,表示当前机器做为rm2::

<property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm2</value>
  </property>

同时删除slave190机器上的该属性对,由于slave190机器并不做为ResourceManager。

三、启动Hadoop

1)启动Journalnode
cd hadoop-2.6.5/sbin/

./hadoop-daemon.sh start 

//查看进程JouralNode是否启动
jps
2)格式化 NameNode和ZKFC

在master188机器上,执行格式化操做:

cd hadoop-2.6.5/bin

./hdfs namenode -format

./hdfs zkfc -formatZK
3)备用主节点同步主节点元数据

在master189(备用主节点)机器上,执行同步操做:

cd hadoop-2.6.5/bin

./hdfs namenode -bootstrapStanby
4)安装fuster

若服务器是最小化安装centeros时,有可能系统没有fuster程序,那么跳过这个安装步骤直接进行后面的操做时,将有可能出现如下问题:

master188做为主节点时,kill掉master188上的NameNode和ResourceManager进程时,能够实现故障转移,master189将从stanby状态自动变成active状态;可是当master189做为主节点时,若kill掉master189上的进程,master188上的进程状态却仍是stanby,并不能实现故障自动转移。缘由是咱们在 hdfs-site.xml中配置了当集群须要故障自动转移时采用SSH方式进行,而由于缺乏fuster程序,将在zkfc的日志文件中发现以下错误:
PATH=$PATH:/sbin:/usr/sbin fuser -v -k -n tcp 9000 via ssh: bash: fuser: 未找到命令
Unable to fence service by any configured method
java.lang.RuntimeException: Unable to fence NameNode at master189/192.168.29.189:9000

提示未找到fuster程序,致使没法进行fence,因此能够经过以下命令来安装,Psmisc软件包中包含了fuster程序:

//分别在master18八、master18九、slave190上执行
sudo yum install psmisc
5)启动HDFS、YARN、ZookeeperFailoverController

在master188机器上:

cd hadoop-2.6.5/sbin

./start-dfs.sh

//验证,显示NameNode和DataNode
jps

./start-yarn.sh

//验证,显示ResourceManager和NodeManager
jps

./hadoop-daemon.sh start zkfc

//验证,显示ZookeeperFailoverController
jps

在master189机器上,启动ResourceManager,备用主节点的ResourceManager须要手动启动:

cd hadoop-2.6.5/sbin

yarn-daemon.sh start resourcemanager
6)查看Namenode、ResourceManager状态

在master188机器上执行:

hdfs haadmin -getServiceState master188
yarn rmadmin -getServiceState rm1 

hdfs haadmin -getServiceState master189
yarn rmadmin -getServiceState rm2

也能够经过Web界面来查看,浏览器中输入 ip:50070 查看HDFS,输入 ip:8088/cluster/cluster 查看YARN。

7)测试高可用
a.主节点--->备用主节点

kill掉主节点的namenode,查看备用主节点的namenode状态是否切换为active;

kill掉主节点的ResourceManager,查看备用主节点的ResourceManager是否切换为active;

b.备用主节点--->主节点

若上述操做执行成功,那么再测试反向故障自动转移

先启动被杀死的原主节点的namenode和ResourceManager

hadoop-daemon.sh start namenode 

yarn-daemon.sh start resourcemanager

再kill备用主节点的namenode和ResourceManager,查看主节点的状态,若能切换为active,那么Hadoop HA高可用集群搭建完成。

5、安装配置HBase

一、下载及安装

下载地址:http://mirrors.hust.edu.cn/ap...

在master188机器上,解压到/home/hadoop/目录下:

tar -zxvf hbase-1.3.1-bin.tar.gz

二、配置

进入hbase-1.3.1/conf/目录,修改配置文件:

cd hbase-1.3.1/conf/
1)vi hbase-env.sh
//配置JDK
export JAVA_HOME=/opt/jdk

//保存pid文件
export HBASE_PID_DIR=/home/hadoop/data/hbase/pids

//修改HBASE_MANAGES_ZK,禁用HBase自带的Zookeeper,由于咱们是使用独立的Zookeeper
export HBASE_MANAGES_ZK=false
2)vi hbase-site.xml
<configuration>
  <!-- 设置HRegionServers共享目录,请加上端口号 -->
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://master188:9000/hbase</value>
  </property>

  <!-- 指定HMaster主机 -->
  <property>
    <name>hbase.master</name>
    <value>hdfs://master188:60000</value>
  </property>

  <!-- 启用分布式模式 -->
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>

  <!-- 指定Zookeeper集群位置 -->
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>master188:2181,master189:2181,slave190:2181</value>
  </property>

  <!-- 指定独立Zookeeper安装路径 -->
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/home/hadoop/zookeeper-3.4.11</value>
  </property>

  <!-- 指定ZooKeeper集群端口 -->
  <property>
    <name>hbase.zookeeper.property.clientPort</name>
    <value>2181</value>
  </property>
</configuration>
3)vi regionservers

修改regionservers文件,由于当前是使用独立的Zookeeper集群,因此要指定RegionServers所在机器:

master188
master189
slave190
4)建立pid文件保存目录

在/home/hadoop/目录下:

mkdir data/hbase/pids -p

三、拷贝HBase到其余机器

cd /home/hadoop/

scp -r hbase-1.3.1 hadoop@master189:/home/hadoop/

scp -r hbase-1.3.1 hadoop@slave190:/home/hadoop/

四、启动HBase

在主节点上启动HBase(这里的主节点是指NameNode状态为active的节点,而非指文中对本实验的机器声明):

cd hbase-1.3.1/bin

./start-hbase.sh

//查看HMaster、Regionserver进程是否启动
jps
注意:此时Hadoop集群应处于启动状态,而且是在主节点执行start-hbase.sh启动HBase集群,不然HMaster进程将在启动几秒后消失,而备用的HMaster进程须要在备用主节点单独启动,命令是: ./hbase-daemon.sh start master

在备用主节点启动HMaster进程,做为备用HMaster:

cd hbase-1.3.1/bin

./hbase-daemon.sh start master

五、HA高可用测试

在浏览器中输入 ip:16010 ,查看主节点和备用主节点上的HMaster的状态,在备用主节点的web界面中,能够看到“Current Active Master: master188”,表示当前HBase主节点是master188机器;

主节点--->备用主节点
这里的主节点指使用start-hbase.sh命令启动HBase集群的机器

kill掉主节点的HMaster进程,在浏览器中查看备用主节点的HBase是否切换为active;

若上述操做成功,则在主节点启动被杀死的HMaster进程:

cd hbase-1.3.1/bin/

./hbase-daemon.sh start master

而后,kill掉备用主节点的HMaster进程,在浏览器中查看主节点的HBase是否切换为active,若操做成功,则HBase高可用集群搭建完成;

六、HBase基本操做

//启动HBase
[root@vnet ~] start-hbase.sh

//进入HBase Shell
[root@vnet ~] hbase shell

//查看当前HBase有哪些表
hbase(main):> list

//建立表t_user,cf1和cf2是列族,列族通常不超过3个
hbase(main):> create 't_user','cf1','cf2'

//得到表t_user的描述信息
hbase(main):> describe 't_user'

//禁用表
hbase(main):> disable 't_user'

//删除表,删除表以前要先把表禁用掉
hbase(main):> drop 't_user'

//查询表是否存在
hbase(main):> exists 't_user'

//查看全表数据
hbase(main):> scan 't_user'

//插入数据,分别是表名、key、列(列族:具体列)、值。HBase是面向列的数据库,列可无限扩充
hbase(main):> put 't_user' ,'001','cf1:name','chenxj'
hbase(main):> put 't_user' ,'001','cf1:age','18'
hbase(main):> put 't_user' ,'001','cf2:sex','man'
hbase(main):> put 't_user' ,'002','cf1:name','chenxj'
hbase(main):> put 't_user' ,'002','cf1:address','fuzhou'
hbase(main):> put 't_user' ,'002','cf2:sex','man'

//获取数据,可根据key、key和列族等进行查询
hbase(main):> get 't_user','001'
hbase(main):> get 't_user','002','cf1'
hbase(main):> get 't_user','001','cf1:age'

6、集群启动结果

Hadoop + Zookeeper + HBase 高可用集群启动后,进程状态以下:

描述 master188 master189 slave190
HDFS主 NameNode NameNode
HDFS从 DataNode DataNode DataNode
YARN主 ResourceManager ResourceManager
YARN从 NodeManager NodeManager NodeManager
HBase主 HMaster HMaster
HBase从 HRegionServer HRegionServer HRegionServer
Zookeeper独立进程 QuorumPeerMain QuorumPeerMain QuorumPeerMain
NameNodes数据同步 JournalNode JournalNode JournalNode
主备故障切换 DFSZKFailoverController DFSZKFailoverController

7、总结

须要注意的地方:

1)备用节点上的NameNode、ResourceManager、HMaster均需单独启动;
hadoop-daemon.sh start namenode

yarn-daemon.sh start resourcemanager

hbase-daemon.sh start master
2)可使用-forcemanual参数强制切换主节点与备用主节点,但强制切换后集群的自动故障转移将会失效,须要从新格式化zkfc: hdfs zdfc -formatZK;
hdfs haadmin -transitionToActive/transitionToStandby  -forcemanual  master189
yarn rmadmin -transitionToActive/transitionToStandby  -forcemanual  rm2
3)在备用主节点同步主节点的元数据时,主节点的HDFS必须已经启动;

4)没法查看standby状态的节点上的hdfs;

5)格式化namenode时要先启动各个JournalNode机器上的journalnode进程:hadoop-daemon.sh start journalnode

6)若遇到问题,能够先考虑是哪一个组件出现问题,而后查看该组件或与该组件相关的组件的日志信息;若各组件web页面没法访问,或存在其余链接问题,能够从「防火墙是否关闭」、「端口是否被占用」、「SSH」、「集群机器是否处于同一网段」内等角度考虑;

最后,欢迎指正。喜欢的话,点个赞呗,请你吃苹果。

相关文章
相关标签/搜索