Hadoop之搭建彻底分布式运行模式

时间 2019-11-10

标签 hadoop 搭建彻底分布式运行模式栏目 Hadoop 繁體版

原文原文链接

1、过程分析html

　　一、准备3台客户机（关闭防火墙、修改静态ip、主机名称）node

　　二、安装JDKweb

　　三、配置环境变量vim

　　四、安装Hadoopcentos

　　五、配置集群浏览器

　　六、单点启动安全

　　七、配置ssh免密登陆bash

　　八、群起并测试集群服务器

2、编写集群分发脚本 xsync网络

一、scp（secure copy）安全拷贝

　　1）scp定义

　　　　scp能够实现服务器与服务器之间的数据拷贝。

　　2）基本语法

　　　　scp -r 文件用户名@主机:目标路径/名称

　　3）案例

　　　　a、在hadoop101上，将hadoop101中 /opt/module 目录下的软件拷贝到 hadoop102上。

[hadoop@hadoop101 /]$ scp -r /opt/module  root@hadoop102:/opt/module

　　　　b、在hadoop103上，将hadoop101服务器上的/opt/module 目录下的软件拷贝到 hadoop103上。

[hadoop@hadoop103 opt]$sudo scp -r hadoop@hadoop101:/opt/module root@hadoop103:/opt/module

　　　　c、在hadoop103上操做hadoop101 中/opt/module 目录下的软件拷贝到 hadoop104上。

[hadoop@hadoop103 opt]$ scp -r hadoop@hadoop101:/opt/module root@hadoop104:/opt/module

　　　注意：拷贝过来的/opt/module目录，别忘了在hadoop10二、hadoop10三、hadoop104上修改全部文件的全部者和全部者组。

　　　　　　sudo chown hadoop:hadoop -R /opt/module

　　　　d、分别将hadoop101 中/etc/profile 文件拷贝到hadoop10二、10三、10四、的/etc/profile上。

[hadoop@hadoop101 ~]$ sudo scp /etc/profile root@hadoop102:/etc/profile

[hadoop@hadoop101 ~]$ sudo scp /etc/profile root@hadoop103:/etc/profile

[hadoop@hadoop101 ~]$ sudo scp /etc/profile root@hadoop104:/etc/profile

　　　　注意：拷贝完成后，须要source一下

二、rsync 远程同步工具

　　rsync主要用于备份和镜像，具备速度快、避免复制相同内容和支持符号连接的优势。

　　rsync 和 scp 区别：用 rsync 作文件的复制要比 scp 的速度快，rsync 只对差别文件作更新。scp是把全部文件都复制过去。

　　1）语法

　　　　rsync -rvl 要拷贝的文件路径/名称目的用户@主机:目的路径/名称

　　　选项参数说明：

选项	功能
-r	递归
-v	显示复制过程
-l	拷贝符号链接

　　2）案例

　　　　a、把hadoop101 机器上的 /opt/software 目录同步到 hadoop102 服务器的 root用户下的 /opt目录

[hadoop@hadoop101 opt]$ rsync -rvl /opt/software/ root@hadoop102:/opt/software

三、xsync集群分发脚本

　　1）需求：循环复制文件到全部节点的相同目录下

　　2）分析

　　　　a、rsync命令原始拷贝：

　　　　　　rsync -rvl /opt/module root@hadoop103:/opt/

　　　　b、指望脚本：

　　　　　　xsync 要同步的文件名称

　　　　c、说明：在/home/hadoop/bin 这个目录下存放的脚本，hadoop用户能够在系统任何地方直接执行。

　　3）脚本实现
　　　　a、在/home/hadoop 目录下建立bin 目录，并在 bin目录下建立xsync文件，文件内容以下：

[hadoop@hadoop102 ~]$ mkdir bin
[hadoop@hadoop102 ~]$ cd bin/
[hadoop@hadoop102 bin]$ touch xsync
[hadoop@hadoop102 bin]$ vi xsync

　　　　在该文件中编写以下代码：

#!/bin/bash
#1 获取输入参数个数，若是没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=103; host<105; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

　　　　b、修改脚本 xsync 具备执行权限　　　

[hadoop@hadoop102 bin]$ chmod 777 xsync

　　　　c、调用脚本形式：xsync 文件名称

[hadoop@hadoop102 bin]$ xsync /home/hadoop/bin

　　　　注意：若是将xsync 放到/home/hadoop/bin 目录下仍然不能实现全局使用，能够将xsync 移动到/usr/local/bin 目录下。

3、集群配置

一、集群部署规划

hadoop102

hadoop103

hadoop104

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

二、配置集群

　　1）核心配置文件

　　配置core-site.xml

[hadoop@hadoop102 hadoop]$ vi core-site.xml

　　在该文件中编写以下配置：

<!-- 指定HDFS中NameNode的地址 -->
<property>
        <name>fs.defaultFS</name>
      <value>hdfs://hadoop102:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

　　2）HDFS 配置文件

　　配置 hadoop-env.sh

[hadoop@hadoop102 hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_131

　　配置 hdfs-site.xml

[hadoop@hadoop102 hadoop]$ vi hdfs-site.xml

　　在该文件中编写以下配置：

<property>
        <name>dfs.replication</name>
        <value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop104:50090</value>
</property>

　　3）YARN 配置文件

　　配置 yarn-env.sh

[hadoop@hadoop102 hadoop]$ vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_131

　　配置 yarn-site.xml

[hadoop@hadoop102 hadoop]$ vi yarn-site.xml

　　在该文件中增长以下配置：

<!-- Reducer获取数据的方式 -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
</property>

　　4）MapReduce 配置文件

　　配置 mapred-env.sh　　

[hadoop@hadoop102 hadoop]$ vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_131

　　配置 mapred-site.xml

[hadoop@hadoop102 hadoop]$ cp mapred-site.xml.template mapred-site.xml

[hadoop@hadoop102 hadoop]$ vi mapred-site.xml

　　在该文件中增长以下配置

<!-- 指定MR运行在Yarn上 -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

三、在集群上分发配置好的 Hadoop 配置文件

[hadoop@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/

四、查看文件分发状况

[hadoop@hadoop103 hadoop]$ cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

4、集群单点启动

一、若是集群是第一次启动，须要格式化 NameNode

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop namenode -format

　　注意：格式化完后，须要将生成的保存文件的目录（data）同步到其余机器上。

二、在 hadoop102 上启动 NameNode

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start namenode
[hadoop@hadoop102 hadoop-2.7.2]$ jps
3461 NameNode

三、在 hadoop10二、hadoop103 以及 hadoop 104上分别启动 DataNode

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hadoop@hadoop102 hadoop-2.7.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode

[hadoop@hadoop103 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hadoop@hadoop103 hadoop-2.7.2]$ jps
3190 DataNode
3279 Jps

[hadoop@hadoop104 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hadoop@hadoop104 hadoop-2.7.2]$ jps
3237 Jps
3163 DataNode

四、思考：每次都一个一个节点启动，若是节点数目增长到1000个怎么办？

5、SSH 无密登陆配置

一、无密钥配置

　　1）免登陆原理

　　2）生成公钥和私钥

[hadoop@hadoop102 .ssh]$ ssh-keygen -t rsa

　　而后敲（三个回车），就会生成两个文件 id_rsa（私钥）、id_rsa.pub（公钥）

　　3）将公钥拷贝到要免密登陆的目标机器上　　

[hadoop@hadoop102 .ssh]$ ssh-copy-id hadoop102
[hadoop@hadoop102 .ssh]$ ssh-copy-id hadoop103
[hadoop@hadoop102 .ssh]$ ssh-copy-id hadoop104

　　注意：还须要在hadoop102 上采用 root帐号，配置一下无密登陆到 hadoop10二、hadoop10三、hadoop104。

　　　　还须要在hadoop103 上采用 hadoop帐号，配置一下无密登陆到hadoop10二、hadoop10三、hadoop104 服务器上。

二、.ssh 文件夹下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥（public key）
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放受权过的无密登陆服务器公钥

6、群起集群

一、配置 slaves

/opt/module/hadoop-2.7.2/etc/hadoop/slaves
[hadoop@hadoop102 hadoop]$ vi slaves

在该文件中增长以下内容：

hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不容许有空格，文件中不容许有空行。

同步全部节点配置文件：

[hadoop@hadoop102 hadoop]$ xsync slaves

二、启动集群

　　1）若是集群是第一次启动，须要格式化 NameNode（注意格式化以前，必定要先中止上次启动的全部 namenode 和 datanode 进程，而后再删除 data 和 log 数据）

[hadoop@hadoop102 hadoop-2.7.2]$ bin/hdfs namenode -format

　　2）启动 HDFS

[hadoop@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
[hadoop@hadoop102 hadoop-2.7.2]$ jps
4166 NameNode
4482 Jps
4263 DataNode

[hadoop@hadoop103 hadoop-2.7.2]$ jps
3218 DataNode
3288 Jps

[hadoop@hadoop104 hadoop-2.7.2]$ jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps

　　3）启动 YARN

[hadoop@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

　　注意：NameNode 和 ResourceManager 若是不是同一台机器，不能在NameNode上启动 YARN，应该在 ResourceManager 所在的机器上启动 YARN。

　　4）web 端查看 SecondaryNameNode

　　　　a、浏览器输入：http://hadoop104:50090/status.html

　　　　b、查看SecondaryNameNode，如图

　　5）web端查看 HDFS

　　　　a、浏览器输入：http://hadoop102:50070/

　　　　b、进入首页，如图：

三、集群基本测试

　　1）上传文件到集群

　　上传小文件　　

[hadoop@hadoop102 hadoop-2.7.2]$ hdfs dfs -mkdir -p /user/atguigu/input
[hadoop@hadoop102 hadoop-2.7.2]$ hdfs dfs -put wcinput/wc.input /user/atguigu/input

　　上传大文件

[hadoop@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -put
 /opt/software/hadoop-2.7.2.tar.gz  /user/atguigu/input

　　2）上传文件后查看文件存放在什么位置

　　　　a、查看HDFS文件存储路径

[hadoop@hadoop102 subdir0]$ pwd

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0

　　　　b、查看HDFS在磁盘存储文件内容

[hadoop@hadoop102 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce 
jiangchun
jiangchun

　　3）拼接

-rw-rw-r--. 1 hadoop hadoop 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 hadoop hadoop   1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 hadoop hadoop  63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 hadoop hadoop    495635 5月  23 16:01 blk_1073741837_1013.meta

[hadoop@hadoop102 subdir0]$ cat blk_1073741836>>tmp.file
[hadoop@hadoop102 subdir0]$ cat blk_1073741837>>tmp.file
[hadoop@hadoop102 subdir0]$ tar -zxvf tmp.file

　　4）下载

[hadoop@hadoop102 hadoop-2.7.2]$ bin/hadoop fs -get /user/atguigu/input/hadoop-2.7.2.tar.gz ./

7、集群启动/中止方式总结

一、各个服务组件逐一启动/中止

　　1）分别启动/中止 HDFS 组件　　

hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode

　　2）启动/中止 YARN

yarn-daemon.sh  start / stop  resourcemanager / nodemanager

二、各个模块分开启动/中止（前提是配置ssh）

　　1）总体启动/中止 HDFS

start-dfs.sh   /  stop-dfs.sh

　　2）总体启动/中止 YARN

start-yarn.sh  /  stop-yarn.sh

8、集群时间同步

　　时间同步的方式：找一个机器做为时间服务器，全部的机器与这台集群时间进行定时的同步，好比：每隔十分钟，同步一次时间。

　　具体步骤：

　　一、时间服务器配置（必须root用户）

　　1）检查 ntp 是否安装

[root@hadoop102 桌面]# rpm -qa|grep ntp
ntp-4.2.6p5-10.el6.centos.x86_64
fontpackages-filesystem-1.41-1.1.el6.noarch
ntpdate-4.2.6p5-10.el6.centos.x86_64

　　2）修改 ntp 配置文件

[root@hadoop102 桌面]# vi /etc/ntp.conf

　　修改内容以下：

　　a、修改1（受权 192.168.1.0-192.168.1.255 网段上的全部机器能够从这台机器上查询和同步时间）

#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap 为
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

　　b、修改2（集群在局域网中，不使用其余互联网上的时间）

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst 为

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

　　c、添加3（当该节点丢失网络链接，依然能够采用本地时间做为时间服务器为集群中的其余节点提供时间同步）

server 127.127.1.0
fudge 127.127.1.0 stratum 10

　　3）修改 /etc/sysconfig/ntpd 文件

[root@hadoop102 桌面]# vim /etc/sysconfig/ntpd

　　增长以下内容（让硬件时间与系统时间一块儿同步）

SYNC_HWCLOCK=yes

　　4）重启 ntpd 服务

[root@hadoop102 桌面]# service ntpd status
ntpd 已停
[root@hadoop102 桌面]# service ntpd start
正在启动 ntpd：                                            [肯定]

　　5）设置 ntpd 服务开机启动

[root@hadoop102 桌面]# chkconfig ntpd on

　　二、其余机器配置（必须root用户）

　　1）在其余机器配置 10 分钟与时间服务器同步一次

[root@hadoop103桌面]# crontab -e

　　编写定时任务以下：

*/10 * * * * /usr/sbin/ntpdate hadoop102

　　2）修改任意机器时间

[root@hadoop103桌面]# date -s "2017-9-11 11:11:11"

　　3）十分钟后查看机器是否与时间服务器同步

[root@hadoop103桌面]# date

说明：测试的时候能够将10分钟调整为1分钟，节省时间