安装好虚拟机后设置好静态IP(192.168.126.120
,设置DNS),hostname
,执行yum update
更新软件html
这里因为进行了规划,因此提早设置了hosts
,防止ping hostname
的时候不一样node
安装vim
,在/usr/lib/jvm
目录安装好jdk1.8.0_212
,并配置/etc/profile
文件vim
建立hadoop
用户并配置hadoop
用户具备root
权限centos
在根目录"/"建立/data/hadoop/tmp用于存储hadoop的数据浏览器
mkdir -P /data/hadoop/tmp
虚拟机2的IP:192.168.126.122,hostname:hadoop-node2bash
虚拟机3的IP:192.168.126.123,hostname:hadoop-node3服务器
在/home/hadoop目录下建立bin目录,并在bin目录下xsync建立文件网络
#!/bin/bash #1 获取输入参数个数,若是没有参数,直接退出 pcount=$# if((pcount==0)); then echo no args; exit; fi #2 获取文件名称 p1=$1 fname=`basename $p1` echo fname=$fname #3 获取上级目录到绝对路径 pdir=`cd -P $(dirname $p1); pwd` echo pdir=$pdir #4 获取当前用户名称 user=`whoami` #5 循环 for((host=2; host<4; host++)); do echo ------------------- hadoop-node$host -------------- rsync -rvl $pdir/$fname $user@hadoop-node$host:$pdir done
修改脚本xsync
具备执行权限chmod 777 xsync
ssh
注意:若是将xsync
放到/home/hadoop/bin
目录下仍然不能实现全局使用,能够将xsync
移动到/usr/local/bin
目录下。jvm
在/opt/module下建立hadoop目录,使用ftp同步下载的hadoop2.7.2并解压,而且将/opt/module/hadoop
所属用户和所属组更改成hadoop
chown hadoop:hadoop -R /opt/module/hadoop
并配置/etc/profile
文件,而且执行source /etc/profile
当即生效
hadoop的配置文件都在/opt/module/hadoop/hadoop2.7.2/etc下面
[hadoop@hadoop-node1 hadoop]$ vim core-site.xml
在该文件中编写以下配置
<!-- 指定HDFS中NameNode的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop-node1:9000</value> </property> <!-- 指定Hadoop运行时产生文件的存储目录 --> <property> <name>hadoop.tmp.dir</name> <value>/data/hadoop/tmp</value> </property>
[hadoop@hadoop-node1 hadoop]$ vim hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_212
配置hdfs-site.xml
[hadoop@hadoop-node1 hadoop]$ vim hdfs-site.xml
在该文件中编写以下配置
<property> <name>dfs.replication</name> <value>3</value> </property> <!-- 指定Hadoop辅助名称节点主机配置 --> <property> <name>dfs.namenode.secondary.http-address</name> <value>hadoop-node3:50090</value> </property>
[hadoop@hadoop-node1 hadoop]$ vim yarn-env.sh export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_212
配置yarn-site.xml
[hadoop@hadoop-node1 hadoop]$ vim yarn-site.xml
在该文件中增长以下配置
<!-- Reducer获取数据的方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 指定YARN的ResourceManager的地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop-node3</value> </property>
[hadoop@hadoop-node1 hadoop]$ vim mapred-env.sh export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_212
配置mapred-site.xml
[hadoop@hadoop-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xml [hadoop@hadoop-node1 hadoop]$ vim mapred-site.xml
在该文件中增长以下配置
<!-- 指定MR运行在Yarn上 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
至此,hadoop集群所须要修改的配置文件都修改完成了
[hadoop@hadoop-node1 hadoop]$ xsync /opt/module/hadoop/hadoop-2.7.2/
这样启动方式仍是比较麻烦的,在下一节会使用群起集群的功能
若是集群是第一次启动,须要格式化****NameNode
[hadoop@hadoop-node1 tmp]$ hdfs namenode -format
在hadoop-node1上启动NameNode
[hadoop@hadoop-node1 hadoop-2.7.2]$ hadoop-daemon.sh start namenode [hadoop@hadoop-node1 hadoop-2.7.2]$ jps 3461 NameNode
在hadoop-node一、hadoop-node2以及hadoop-node3上分别启动DataNode
[hadoop@hadoop-node1 tmp]$ hadoop-daemon.sh start datanode [hadoop@hadoop-node1 tmp]$ jps 3461 NameNode 3608 Jps 3561 DataNode [hadoop@hadoop-node2 tmp]$ hadoop-daemon.sh start datanode [hadoop@hadoop-node2 tmp]$ jps 3190 DataNode 3279 Jps [hadoop@hadoop-node3 tmp]$ hadoop-daemon.sh start datanode [hadoop@hadoop-node3 tmp]$ jps 3237 Jps 3163 DataNode
启动报错:若是启动DataNode时报错:Initialization failed for Block pool (Datanode Uuid unassigned)
是由于namenode和datanode的clusterID不一致致使datanode没法启动。删除data、tmp、namenode 数据后,从新格式化便可。
[hadoop@hadoop-node3 hadoop]$rm -rf tmp [hadoop@hadoop-node3 hadoop]$mkdir tmp
6.配置集群群起功能
6.1SSH无密登陆配置
在hadoop-node1生成公钥是密钥
[hadoop@hadoop-node1 hadoop]$ ssh-keygen -t rsa
而后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
将公钥拷贝到要免密登陆的目标机器上
[hadoop@hadoop-node1 .ssh]$ ssh-copy-id hadoop-node1 [hadoop@hadoop-node1 .ssh]$ ssh-copy-id hadoop-node2 [hadoop@hadoop-node1 .ssh]$ ssh-copy-id hadoop-node3
一样的操做,须要在hadoop-node二、hadoop-node3机器上执行ssh免密设置。
.ssh文件夹下(~/.ssh)的文件功能解释
6.2群起集群配置
配置slaves
[hadoop@hadoop-node1 hadoop]$ vim /opt/module/hadoop/hadoop-2.7.2/etc/hadoop/slaves
在该文件中增长以下内容:
hadoop-node1 hadoop-node2 hadoop-node3
注意:该文件中添加的内容结尾不容许有空格,文件中不容许有空行。
同步全部节点配置文件
[hadoop@hadoop-node1 hadoop]$ xsync slaves
6.3启动集群
若是集群是第一次启动,须要格式化NameNode(注意格式化以前,必定要先中止上次启动的全部namenode和datanode进程,而后再删除data和log数据)
[hadoop@hadoop-node1 hadoop-2.7.2]$ bin/hdfs namenode -format
启动HDFS
[hadoop@hadoop-node1 hadoop-2.7.2]$ sbin/start-dfs.sh [hadoop@hadoop-node1 hadoop-2.7.2]$ jps 4166 NameNode 4482 Jps 4263 DataNode [hadoop@hadoop-node2 hadoop-2.7.2]$ jps 3218 DataNode 3288 Jps [hadoop@hadoop-node3 hadoop-2.7.2]$ jps 3221 DataNode 3283 SecondaryNameNode 3364 Jps
启动YARN
[hadoop@hadoop-node2 hadoop-2.7.2]$ sbin/start-yarn.sh
注意:NameNode和ResourceManger若是不是同一台机器,不能在NameNode上启动 YARN,应该在ResouceManager所在的机器上启动YARN。
Web端查看SecondaryNameNode
(a)浏览器中输入:http://hadoop-node3:50090/status.html
[hadoop@hadoop-node1 data]$ hdfs dfs -mkdir -p /user/lyt/input [hadoop@hadoop-node1 data]$ hdfs dfs -put wcinput/wc.input /user/lyt/input
(1)分别启动/中止HDFS组件
hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
(2)启动/中止YARN
yarn-daemon.sh start / stop resourcemanager / nodemanager
(1)总体启动/中止HDFS
start-dfs.sh / stop-dfs.sh
(2)总体启动/中止YARN
start-yarn.sh / stop-yarn.sh
(1)检查ntp是否安装
[root@hadoop-node1 hadoop]# rpm -qa|grep ntp ntp-4.2.6p5-10.el6.centos.x86_64 fontpackages-filesystem-1.41-1.1.el6.noarch ntpdate-4.2.6p5-10.el6.centos.x86_64
若是没有安装,执行yum安装便可
[root@hadoop-node1 hadoop]#yum -y install ntp [root@hadoop-node1 hadoop]#systemctl enable ntpd [root@hadoop-node1 hadoop]#systemctl start ntpd
(2)修改ntp配置文件
[root@hadoop-node1 hadoop]# vim /etc/ntp.conf
修改内容以下
a)修改1
取消注释,大约在17行(受权192.168.126.0-192.168.126.255网段上的全部机器能够从这台机器上查询和同步时间)
#restrict 192.168.126.0 mask 255.255.255.0 nomodify notrap为 restrict 192.168.126.0 mask 255.255.255.0 nomodify notrap
b)修改2
注释掉配置,大约在21-24行(集群在局域网中,不使用其余互联网上的时间)
server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburst server 3.centos.pool.ntp.org iburst为 #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst
c)添加3
文件末尾添加(当该节点丢失网络链接,依然能够采用本地时间做为时间服务器为集群中的其余节点提供时间同步)
server 127.127.1.0 fudge 127.127.1.0 stratum 10
(3)修改/etc/sysconfig/ntpd 文件
[root@hadoop-node1 hadoop]# vim /etc/sysconfig/ntpd
增长内容以下(让硬件时间与系统时间一块儿同步)
SYNC_HWCLOCK=yes
(4)从新启动ntpd服务
[root@hadoop-node1 hadoop]# service ntpd status ntpd 已停 [root@hadoop-node1 hadoop]# service ntpd start 正在启动 ntpd: [肯定]
(5)设置ntpd服务开机启动
[root@hadoop-node1 hadoop]# chkconfig ntpd on
(1)在其余机器配置10分钟与时间服务器同步一次
[root@hadoop-node2 hadoop]# crontab -e
编写定时任务以下:
*/10 * * * * /usr/sbin/ntpdate hadoop-node1
(2)修改任意机器时间
[root@hadoop-node2 hadoop]# date -s "2019-9-17 11:11:11"
(3)十分钟后查看机器是否与时间服务器同步
[root@hadoop-node2 hadoop]# date
说明:测试的时候能够将10分钟调整为1分钟,节省时间。