虚拟机centos7系统下安装hadoop ha和yarn ha（详细）

时间 2019-11-10

标签虚拟机 centos7 centos 系统安装 hadoop yarn 详细栏目 Java 繁體版

原文原文链接

一：基础环境准备

（一）：虚拟机新建五个centos7系统（复制文件夹的方式）
（二）：角色分配
html

（三）按照角色分配表配置
(1)更改主机ip（自行查找），若是只是我的搭建玩一玩，可选择安装centos7图形界面操做比较简单
(2)更改主机名方法， vim /etc/hostname文件，修改为对应的主机名，保存（好比在192.168.254.2这台主机上，就修改为master）。再执行hostname 主机名，进行设置。
(3)在五个虚拟机系统中修改/etc/hosts文件，添加以下内容java

192.168.254.2  master
192.168.254.3    master2
192.168.254.4  slave01
192.168.254.5    slave02
192.168.254.6  slave03

（四）关闭五台虚拟机系统上的防火墙firwall（或者iptable），楼主的仍是firewallnode

关闭： systemctl stop firewalld
开机禁用  ： systemctl disable firewalld

（五）配置完成后，五台主机相互ping 主机名（好比ping slave01），看是否可ping通，若是不能检查虚拟机的网络适配器模式（方式多种），楼主选择的是nat方式可参考以下：
(1)进入本机的虚拟网卡8，而后设置其网关为192.168.254.254（和虚拟机里面配置的ip的网关同样，并且虚拟机系统的ip要和本地网卡8的ip在同一个网段）
（六）建立专门的用户linux

useradd hadoop (建立用户)

passwd hadoop （设置密码，5台机器上的hadoop密码最好设置成同样(容易记)，好比hadoop123）

建议将hadoop加入root用户组，操做方法：

先以root身份登陆，而后输入

usermod -g root hadoop ，执行完后hadoop即归属于root组了，能够再输入

id hadoop 查看输出验证一下，若是看到相似下面的输出：

uid=502(hadoop) gid=0(root) 组=0(root)

就表示OK了

（七）配置ssh，免密登陆（由于各个主机之间会进行自主通信，因此必须配置）
(1)首先配置master，
①在master上，生成公钥、私钥对。web

以hadoop身份登陆到系统
cd (进入我的主目录，默认为/home/hadoop)

ssh-keygen -t rsa -P '' (注：最后是二个单引号)

即：以rsa算法，生成公钥、私钥对，-P ''表示空密码。该命令运行完后，会在我的主目录下生成.ssh目录，里面会有二个文件id_rsa（私钥） ,id_rsa.pub(公钥)算法

②导入公钥apache

cat .ssh/id_rsa.pub >> .ssh/authorized_keys

chmod 600 .ssh/authorized_keys

执行完之后，能够在本机上测试下，用ssh链接本身，即：ssh master。若是不须要输入密码，就链接成功，表示ok，一台机器已经搞定了。

（2）配置其余四台系统，按照以下
①在其余四台上生成公钥、私钥对。bootstrap

以hadoop身份登陆到系统
cd (进入我的主目录，默认为/home/hadoop)

ssh-keygen -t rsa -P '' (注：最后是二个单引号)

即：以rsa算法，生成公钥、私钥对，-P ''表示空密码。该命令运行完后，会在我的主目录下生成.ssh目录，里面会有二个文件id_rsa（私钥） ,id_rsa.pub(公钥)vim

②而后用scp命令，把公钥文件发放给master（即：已经配置完成的那台机器）centos

master2上：

scp  .ssh/id_rsa.pub  hadoop@master:/home/hadoop/id_rsa_01.pub

slave01上：

scp .ssh/id_rsa.pub hadoop@master:/home/hadoop/id_rsa_02.pub

slave02上：

scp .ssh/id_rsa.pub hadoop@master:/home/hadoop/id_rsa_03.pub

slave03上

scp .ssh/id_rsa.pub hadoop@master:/home/hadoop/id_rsa_04.pub

这四台行执行完后，回到master中，查看下/home/hadoop目录，会有四个新文件id_rsa_01.pub、id_rsa_02.pub，id_rsa_03.pub，id_rsa_04.pub 而后在master上，导入这四个公钥

cat id_rsa_01.pub >> .ssh/authorized_keys
cat id_rsa_02.pub >> .ssh/authorized_keys
cat id_rsa_03.pub >> .ssh/authorized_keys
cat id_rsa_04.pub >> .ssh/authorized_keys

这样，master这台机器上，就有全部5台机器的公钥了。

③在master上使用scp把authorized_keys发送给其余四台机器，执行命令以下：

scp .ssh/authorized_keys hadoop@master2:/home/hadoop/.ssh/authorized_keys
scp .ssh/authorized_keys hadoop@slave01:/home/hadoop/.ssh/authorized_keys
scp .ssh/authorized_keys hadoop@slave02:/home/hadoop/.ssh/authorized_keys
scp .ssh/authorized_keys hadoop@slave03:/home/hadoop/.ssh/authorized_keys

④修改其它机器上authorized_keys文件的权限

在其余四台系统上，均执行命令

chmod 600 .ssh/authorized_keys

⑤验证

在每一个虚拟机上，均用 ssh 其它机器的hostname 验证下（如在master上ssh slave01），若是能正常无密码链接成功，表示ok

至此基础的环境配置完成，接下来安装须要软件

二：安装jdk1.8

可自行百度如何安装jdk1.8 也能够参考linux下安装oracle jdk

三：同步全部主机的时间

若是我的搭建测试（使用虚拟机文件夹复制的方式来建立多台主机的可不用同步），若是不是安装ntpdate进行时间的同步

四：在slave01，slave02，slave03上安装zookeeper3.4.5

（1）下载zookeeper3.4.5，下载链接
（2）上传zookeeper-3.4.5.tar.gz至slave01的/home/hadoop/目录下，登录到slave01上，切换hadoop用户
（3）解压压缩包 tar -zvxf zookeeper-3.4.5.tar.gz
（4）解压后进入该目录，并cd conf 将 zoo_sample.cfg 修改成zoo.cfg，执行命令，mv zoo_sample.cfg zoo.cfg
（5）修改zoo.cfg，执行vim zoo.cfg以下后保存

tickTime=2000
initLimit=5
syncLimit=2
dataDir=/home/hadoop/storage/zookeeper/data
dataLogDir=/home/hadoop/storage/zookeeper/logs
clientPort=2181
server.1=slave01:2888:3888
server.2=slave02:2888:3888
server.3=slave03:2888:3888

(6)建立目录/home/hadoop/storage/zookeeper/data和/home/hadoop/storage/zookeeper/logs目录，mkdir .....
(7)将配置好的zookeeper-3.4.5目录发送到slave02，slave03上

在slave01上执行
scp -r /home/hadoop/zookeeper-3.4.5  hadoop@slave02:/home/hadoop/ 
scp -r /home/hadoop/zookeeper-3.4.5  hadoop@slave03:/home/hadoop/

(8)写入id

在slave01上执行
echo '1' >  /home/hadoop/storage/zookeeper/data/myid  （这边的1对应的是上面配置的server.1）
在slave02上执行
echo '2' >  /home/hadoop/storage/zookeeper/data/myid （这边的2对应的是上面配置的server.2）
在slave03上执行
echo '3' >  /home/hadoop/storage/zookeeper/data/myid （这边的3对应的是上面配置的server.3）

(9)验证（分别登陆slave01，slave02，slave03启动zookeeper）
①进入/home/hadoop/zookeeper-3.4.5/bin/目录执行 zkServer.sh start
②分别进入三个系统输入jps，查看是否存在QuorumPeerMain进程，若是存在则表示成功（若是jps没有找到命令，则检查java的安装是否成功）

五：安装hadoop2.6.0 ha，yarn ha（只因配合工做环境，版本比较旧）

（一）首先到master系统上，要切换到hadoop用户
①从网上下载hadoop2.6.0 并上传至master虚拟机/home/hadoop/目录下（若是安装的虚拟机系统是图形界面，能够直接黏贴，复制）
②执行tar -zxvf hadoop-2.6.0.tar.gz 解压hadoop压缩包
（二）修改hadoop配置的五个文件

/home/hadoop/hadoop-2.6.0/hadoop/etc/hadoop/core-site.xml
/home/hadoop/hadoop-2.6.0/hadoop/etc/hadoop/hdfs-site.xml
/home/hadoop/hadoop-2.6.0/hadoop/etc/hadoop/mapred-site.xml（若是没有这个文件，将该目录下名称为mapred-site.xml.template更名为mapred-site.xml）
/home/hadoop/hadoop-2.6.0/hadoop/etc/hadoop/yarn-site.xml
/home/hadoop/hadoop-2.6.0/hadoop/etc/hadoop/slaves

①vim /home/hadoop/hadoop-2.6.0/hadoop/etc/hadoop/core-site.xml

<!-- hdfs://master中的master能够随便取名，可是要和后面的配置一致 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master</value>
  </property>
 
  <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
  </property>
 
<!-- 指定hadoop临时目录 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/storage/hadoop/tmp</value>
    <description>Abase for other temporary directories.</description>
  </property>
 
<!--指定能够在任何IP访问-->
  <property>
    <name>hadoop.proxyuser.hduser.hosts</name>
    <value>*</value>
  </property>
 
<!--指定全部用户能够访问-->
  <property>
    <name>hadoop.proxyuser.hduser.groups</name>
    <value>*</value>
  </property>
 
<!-- 指定zookeeper地址 -->
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>slave01:2181,slave02:2181,slave03:2181</value>
  </property>

②vi /home/hadoop/hadoop/etc/hadoop/hdfs-site.xml

<!--指定hdfs的block大小64M -->
  <property>  
    <name>dfs.block.size</name>  
    <value>67108864</value>
  </property> 
 
<!--指定hdfs的nameservice为master，须要和core-site.xml中的保持一致 -->
  <property>
    <name>dfs.nameservices</name>
    <value>master</value>
  </property>
 
<!-- master下面有两个NameNode，分别是nn1，nn2 -->
  <property>
    <name>dfs.ha.namenodes.master</name>
    <value>nn1,nn2</value>
  </property>
 
<!-- nn1的RPC通讯地址 -->
  <property>
    <name>dfs.namenode.rpc-address.master.nn1</name>
    <value>master:9000</value>
  </property>
 
<!-- nn1的http通讯地址 -->
  <property>
    <name>dfs.namenode.http-address.master.nn1</name>
    <value>master:50070</value>
  </property>
 
<!-- nn2的RPC通讯地址 -->
  <property>
    <name>dfs.namenode.rpc-address.master.nn2</name>
    <value>master2:9000</value>
  </property>
 
<!-- nn2的http通讯地址 -->
  <property>
    <name>dfs.namenode.http-address.master.nn2</name>
    <value>master2:50070</value>
  </property>
 
<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://slave01:8485;slave02:8485;slave03:8485/master</value>
  </property>
 
<!-- 配置失败自动切换实现方式 -->
  <property>
    <name>dfs.client.failover.proxy.provider.master</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>
 
<!-- 配置隔离机制 -->
  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
  </property>
 
<!-- 使用隔离机制时须要ssh免密码登录 -->
  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/hadoop/.ssh/id_rsa</value>
  </property>
 
<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/home/hadoop/storage/hadoop/journal</value>
  </property>
 
<!--指定支持高可用自动切换机制-->
  <property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>
 
<!--指定namenode名称空间的存储地址-->
  <property>   
    <name>dfs.namenode.name.dir</name>   
    <value>/home/hadoop/storage/hadoop/name</value>  
  </property>
 
 <!--指定datanode数据存储地址-->
  <property>   
    <name>dfs.datanode.data.dir</name>   
    <value>file:/home/hadoop/storage/hadoop/data</value>  
  </property>
  
<!--指定数据冗余份数-->
  <property>   
    <name>dfs.replication</name>   
    <value>3</value> 
  </property>
 
<!--指定能够经过web访问hdfs目录-->
  <property>  
    <name>dfs.webhdfs.enabled</name>  
    <value>true</value> 
  </property>
 
<!--保证数据恢复 -->  
  <property>  
    <name>dfs.journalnode.http-address</name>  
    <value>0.0.0.0:8480</value>  
  </property>
 
  <property>  
    <name>dfs.journalnode.rpc-address</name>  
    <value>0.0.0.0:8485</value>  
  </property> 
 
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>slave01:2181,slave02:2181,slave03:2181</value>
  </property>

③vi /home/hadoop/hadoop/etc/hadoop/mapred-site.xml

<configuration>
<!-- 配置MapReduce运行于yarn中 -->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
 
<!-- 配置 MapReduce JobHistory Server 地址 ，默认端口10020 -->
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>0.0.0.0:10020</value>
  </property>
 
<!-- 配置 MapReduce JobHistory Server web ui 地址， 默认端口19888 -->
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>0.0.0.0:19888</value>
  </property>
</configuration>

④vi /home/hadoop/hadoop/etc/hadoop/yarn-site.xml

<!--日志聚合功能--> 
  <property>
     <name>yarn.log-aggregation-enable</name>
     <value>true</value>
  </property>
 
<!--在HDFS上聚合的日志最长保留多少秒。3天--> 
  <property>
     <name>yarn.log-aggregation.retain-seconds</name>
     <value>259200</value>
  </property>
 
<!--rm失联后从新连接的时间--> 
  <property> 
     <name>yarn.resourcemanager.connect.retry-interval.ms</name> 
     <value>2000</value> 
  </property>
 
<!--开启resource manager HA,默认为false--> 
  <property> 
     <name>yarn.resourcemanager.ha.enabled</name> 
     <value>true</value> 
  </property> 
 
<!--配置resource manager -->
  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
  </property>
 
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>slave01:2181,slave02:2181,slave03:2181</value> 
  </property>
  
<!--开启故障自动切换--> 
  <property> 
     <name>yarn.resourcemanager.ha.automatic-failover.enabled</name> 
     <value>true</value> 
  </property> 
 
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>master</value>
  </property>
                     
  <property>
     <name>yarn.resourcemanager.hostname.rm2</name>
     <value>master2</value>
  </property>
 
<!--在namenode1上配置rm1,在namenode2上配置rm2,注意：通常都喜欢把配置好的文件远程复制到其它机器上，但这个在YARN的另外一个机器上必定要修改--> 
  <property> 
    <name>yarn.resourcemanager.ha.id</name> 
    <value>rm1</value> 
  <description>If we want to launch more than one RM in single node, we need this configuration</description> 
  </property> 
 
<!--开启自动恢复功能--> 
  <property>
    <name>yarn.resourcemanager.recovery.enabled</name> 
    <value>true</value> 
  </property>
 
<!--配置与zookeeper的链接地址--> 
  <property> 
    <name>yarn.resourcemanager.zk-state-store.address</name> 
    <value>slave01:2181,slave02:2181,slave03:2181</value>
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.store.class</name> 
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value> 
  </property> 
 
  <property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>slave01:2181,slave02:2181,slave03:2181</value>
  </property>
 
  <property> 
    <name>yarn.resourcemanager.cluster-id</name> 
    <value>master-yarn</value> 
  </property> 
 
<!--schelduler失联等待链接时间--> 
  <property> 
    <name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name> 
    <value>5000</value> 
  </property> 
 
<!--配置rm1--> 
  <property> 
    <name>yarn.resourcemanager.address.rm1</name> 
    <value>master:8132</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.scheduler.address.rm1</name> 
    <value>master:8130</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.webapp.address.rm1</name> 
    <value>master:8188</value> 
  </property> 
 
  <property>
    <name>yarn.resourcemanager.resource-tracker.address.rm1</name> 
    <value>master:8131</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.admin.address.rm1</name> 
    <value>master:8033</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.ha.admin.address.rm1</name> 
    <value>master:23142</value> 
  </property> 
 
<!--配置rm2--> 
  <property> 
    <name>yarn.resourcemanager.address.rm2</name> 
    <value>master2:8132</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.scheduler.address.rm2</name> 
    <value>master2:8130</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.webapp.address.rm2</name> 
    <value>master2:8188</value> 
  </property> 
 
  <property>
    <name>yarn.resourcemanager.resource-tracker.address.rm2</name> 
    <value>master2:8131</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.admin.address.rm2</name> 
    <value>master2:8033</value> 
  </property> 
 
  <property> 
    <name>yarn.resourcemanager.ha.admin.address.rm2</name> 
    <value>master2:23142</value> 
  </property> 
 
  <property> 
    <name>yarn.nodemanager.aux-services</name> 
    <value>mapreduce_shuffle</value> 
  </property> 
 
  <property> 
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 
    <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
  </property> 
 
  <property> 
    <name>yarn.nodemanager.local-dirs</name> 
    <value>/home/hadoop/storage/yarn/local</value> 
  </property> 
 
  <property> 
    <name>yarn.nodemanager.log-dirs</name> 
    <value>/home/hadoop/storage/yarn/logs</value> 
  </property> 
 
  <property> 
    <name>mapreduce.shuffle.port</name> 
    <value>23080</value> 
  </property> 
 
<!--故障处理类-->
  <property> 
    <name>yarn.client.failover-proxy-provider</name> 
    <value>org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider</value> 
  </property> 
 
  <property>
      <name>yarn.resourcemanager.ha.automatic-failover.zk-base-path</name>
      <value>/yarn-leader-election</value>
      <description>Optional setting. The default value is /yarn-leader-election</description>
  </property>

⑤配置datenode vi /home/hadoop/hadoop/etc/hadoop/slaves

slave01
slave02
slave03

(三)同步hadoop文件夹到其余的四台机器（master2，slave01，slave02，slave03）

再master节点上执行
scp -r /home/hadoop/hadoop-2.6.0  hadoop@master2:/home/hadoop/
scp -r /home/hadoop/hadoop-2.6.0  hadoop@slave01:/home/hadoop/
scp -r /home/hadoop/hadoop-2.6.0  hadoop@slave02:/home/hadoop/
scp -r /home/hadoop/hadoop-2.6.0  hadoop@slave03:/home/hadoop/

（四）修改nn2（master2）配置文件yarn-site.xml

<property> 
    <name>yarn.resourcemanager.ha.id</name> 
    <value>rm2</value> 
  <description>If we want to launch more than one RM in single node, we need this configuration</description> 
  </property>

六：启动集群

（一）把各个zookeeper起来（slave01，slave02，slave03）

在三台机器上执行
/home/hadoop/zookeeper-3.4.5/bin/zkServer.sh start    
/home/hadoop/zookeeper-3.4.5/bin/zkServer.sh status （1个leader, 2个follower）
输入jps，会显示启动进程：QuorumPeerMain

（二）在主namenode节点（master）执行以下命令，建立命名空间

/home/hadoop/hadoop-2.6.0/bin/hdfs zkfc -formatZK

（三）在slave01，slave02，slave03节点用以下命令启日志程序
/home/hadoop/hadoop-2.6.0/sbin/hadoop-daemon.sh start journalnode

（四）在主namenode节点用./bin/hadoop namenode -format格式化namenode和journalnode目录

/home/hadoop/hadoop-2.6.0/bin/hadoop namenode -format

（五）在任意一个zookeeper节点（salve01，slave02，slave03）执行

/home/hadoop/zookeeper-3.4.5/bin/zkCli.sh

[zk: localhost:2181(CONNECTED) 0] ls /
[hadoop-ha, zookeeper]
[zk: localhost:2181(CONNECTED) 1] ls /hadoop-ha 
[master]
[zk: localhost:2181(CONNECTED) 2] quit

（六）在主namenode节点启动namenode进程

/home/hadoop/hadoop-2.6.0/sbin/hadoop-daemon.sh start namenode

（七）在备namenode节点（master2）执行第一行命令，把备namenode节点的目录格式化并把元数据从主namenode节点copy过来，而且这个命令不会把journalnode目录再格式化了！而后用第二个命令启动备namenode进程！

/home/hadoop/hadoop-2.6.0/bin/hdfs namenode -bootstrapStandby

/home/hadoop/hadoop-2.6.0/sbin/hadoop-daemon.sh start namenode

（八）在两个namenode节点都执行如下命令

/home/hadoop/hadoop-2.6.0/sbin/hadoop-daemon.sh start zkfc

（九）启动datanode

方法①：在slave01上执行如下命令，slave02，salve03的datanode也会启动，若是某个几点上执行jps没有看到datanode进程则在该节点也执行如下命令，或者使用方法②
/home/hadoop/hadoop-2.6.0/sbin/hadoop-daemons.sh start datanode
方法②：直接在主NameNode（master）上执行以下命令一次性启动全部datanode
/home/hadoop/hadoop-2.6.0/sbin/hadoop-daemons.sh start datanode

（十）启动YARN(在master和master2上执行)

/home/hadoop/hadoop-2.6.0/sbin/start-yarn.sh

注：在namenode2（master2）上执行此命令时会提示NodeManager已存在等信息不用管这些，主要是启动namenode2上的resourceManager完成与namenode1的互备做用，可忽略

（十一）查看状态

启动完成以后能够在浏览器中输入http://master:50070和http://master2:50070查看namenode分别为Standby和Active。
在namenode1（master）上执行${HADOOP_HOME}/bin/yarn rmadmin -getServiceState rm1查看rm1和rm2分别为active和standby状态，也能够经过浏览器访问http://master:8188查看状态

查看到正确信息表示安装成功！！