这篇文章是基于Linux
系统CentOS7
搭建Hadoop-3.3.0
分布式集群的详细手记。java
Hadoop
中的HDFS
和YARN
都是主从架构,主从架构会有一主多从和多主多从两种架构,这里为了简化搭建集群的流程,这里使用一主多从的架构。Hadoop
集群中各个角色的名称以下:node
服务 | 主节点 | 从节点 |
---|---|---|
HDFS |
NameNode |
DataNode |
YARN |
ResourceManager |
NodeManager |
还有SecondaryNameNode,实际上是NameNode的备用节点,定时合并和处理日志而且反馈到NameNode上。通常NameNode和SecondaryNameNode尽可能不要放在同一个节点。git
HDFS
服务和YARN
实际上是分离的,一者是数据存储,另外一者是资源调度,Hadoop
集群能够只启用YARN
集群作资源调度。web
测试的Hadoop
集群使用了3
台基于VirtualBox
搭建的CentOS7
虚拟机:shell
内网IP | 主机名 | 用户 | 虚拟磁盘空间 | HDFS角色 | YARN角色 |
---|---|---|---|---|---|
192.168.56.200 |
hadoop01 |
hadoop |
30GB |
NameNode 、DataNode |
NodeManager |
192.168.56.201 |
hadoop02 |
hadoop |
30GB |
DataNode |
NodeManager |
192.168.56.202 |
hadoop03 |
hadoop |
30GB |
SecondaryNameNode 、DataNode |
ResourceManager 、NodeManager |
主要包括必要的软件安装、用户建立和网络配置等等。apache
为了不出现部分端口没法访问,内网环境下每台虚拟机均可以直接关闭防火墙:vim
# 中止防火墙进程 systemctl stop firewalld.service # 禁用防火墙开机启动 systemctl disable firewalld.service
JDK
的安装比较简单,这里过程略过。笔者使用的JDK
是OpenJDK
,版本是1.8.0_252-b09
,JDK
路径配置以下:bash
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.b09-2.el7_8.x86_64 export PATH=$JAVA_HOME/bin:$PATH
确保集群全部机器的JDK
安装位置相同,而且JDK
版本尽量大版本选择8
,通过大量测试发现Hadoop
暂时不兼容JDK9+
。服务器
[root@localhost]# java -version openjdk version "1.8.0_252" OpenJDK Runtime Environment (build 1.8.0_252-b09) OpenJDK 64-Bit Server VM (build 25.252-b09, mixed mode)
这个JDK安装位置和安装包名称是否是看起来比较奇怪?没错,是笔者偷懒用yum直接安装的OpenJDK。网络
三个节点分别经过hostnamectl set-hostname $hostname
修改主机名:
# 节点192.168.56.200 hostnamectl set-hostname hadoop01 reboot # 节点192.168.56.201 hostnamectl set-hostname hadoop02 reboot # 节点192.168.56.202 hostnamectl set-hostname hadoop03 reboot
最终效果以下:
Connecting to 192.168.56.200:22... Connection established. To escape to local shell, press 'Ctrl+Alt+]'. WARNING! The remote SSH server rejected X11 forwarding request. Last login: Sun Dec 13 06:42:42 2020 from 192.168.56.1 [root@hadoop01 ~]# Connecting to 192.168.56.201:22... Connection established. To escape to local shell, press 'Ctrl+Alt+]'. WARNING! The remote SSH server rejected X11 forwarding request. Last login: Sun Dec 13 07:51:28 2020 from 192.168.56.1 [root@hadoop02 ~]# Connecting to 192.168.56.202:22... Connection established. To escape to local shell, press 'Ctrl+Alt+]'. WARNING! The remote SSH server rejected X11 forwarding request. Last login: Sun Dec 13 07:52:01 2020 [root@hadoop03 ~]#
在每一个节点的hosts
文件具体是/etc/hosts
尾部添加:
192.168.56.200 hadoop01 192.168.56.201 hadoop02 192.168.56.202 hadoop03
方便后面能够直接经过主机名访问对应的机器。能够在任意一台机器用经过主机名ping
任意的主机名:
ping hadoop01 ping hadoop02 ping hadoop03
添加用户的操做须要在root
用户下进行。添加一个用户分组、命名和密码都为hadoop
的用户:
useradd hadoop # 设置密码须要手动输入两次密码,笔者这里也暂时设定密码为hadoop passwd hadoop
经过mkdir -p /data/hadoop
建立一个新目录,后面的hadoop
相关的数据等文件都放在/data/hadoop
目录下。设置目录/data/hadoop
的拥有者为hadoop
用户:
chown hadoop:hadoop /data/hadoop
最后设置hadoop
用户能够不输入密码直接经过sudo su
提高为root
用户:
chmod u+w /etc/sudoers vim /etc/sudoers # 在sudoers文件的root用户一行后面添加下面内容而且保存 hadoop ALL=(ALL) NOPASSWD:ALL chmod u-w /etc/sudoers
效果以下:
验证一下是否成功:
# 在root用户下切换hadoop用户 su hadoop # 在hadoop用户下无密码切换root用户 sudo su # 效果 [root@localhost]# su hadoop [hadoop@localhost]$ sudo su [root@localhost]#
建立hadoop用户须要在集群中每台机器操做一次。
设置集群机器SSH
免登这一步十分重要,不管是scp
命令去拷贝文件到各个机器,仍是集群启动和通信过程都依赖这一步。集群中每一个机器都进行下面步骤操做:
su hadoop
切换到hadoop
用户ssh-keygen -t rsa
命令,接着连按几回回车,生成公钥,执行完毕后/home/hadoop/.ssh/
目录下会多了一个id_rsa.pub
/home/hadoop/.ssh/id_rsa.pub
内容,汇总合并成一个authorized_keys
文件,再拷贝该文件到全部集群节点的/home/hadoop/.ssh/ssh
目录下chmod 700 /home/hadoop/.ssh/ && chmod 700 /home/hadoop/ && chmod 600 /home/hadoop/.ssh/authorized_keys
最终笔者的/home/hadoop/.ssh/authorized_keys
文件内容以下:
可使用下面的脚本替代手工操做:
# 拷贝三个节点的RSA公钥到authorized_keys中,能够在第一个节点中执行便可 for a in {1..3}; do sudo ssh hadoop@hadoop0$a cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys; done # 拷贝authorized_keys到三个节点中,能够在第一个节点中执行便可 for a in {1..3}; do sudo scp /home/hadoop/.ssh/authorized_keys hadoop@hadoop0$a:/home/hadoop/.ssh/authorized_keys ; done
最终的效果以下:
主要在hadoop01
节点中安装便可,安装完毕能够经过scp
命令直接拷贝文件分发到不一样的节点中。赋予用户/data/hadoop
目录的读写权限:
su hadoop sudo chmod -R a+w /data/hadoop
这一步极其重要,不然容易致使运行集群的时候建立文件夹权限不足。这里记住不要主动建立Hadoop
文件系统中的目录,不然容易致使DataNode
启动失败。
切换目录和用户:
su hadoop
cd /data/hadoop
下载和解压hadoop-3.3.0
:
wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz tar -zxvf hadoop-3.3.0.tar.gz
解压完毕后,/data/hadoop
目录下会多了一个hadoop-3.3.0
文件夹。
重命名一下文件夹mv hadoop-3.3.0 app
,也就是最终的HADOOP_HOME
为/data/hadoop/app
,能够先提早修改一下用户配置vim ~/.bashrc
(全部节点都要添加),添加:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.b09-2.el7_8.x86_64 export PATH=$JAVA_HOME/bin:$PATH export HADOOP_HOME=/data/hadoop/app export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
刷新一下用户配置source ~/.bashrc
。
调用hadoop version
:
[hadoop@hadoop01 hadoop]$ hadoop version Hadoop 3.3.0 Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r aa96f1871bfd858f9bac59cf2a81ec470da649af Compiled by brahma on 2020-07-06T18:44Z Compiled with protoc 3.7.1 From source with checksum 5dc29b802d6ccd77b262ef9d04d19c4 This command was run using /data/hadoop/app/share/hadoop/common/hadoop-common-3.3.0.jar
这样就能肯定JDK
和Hadoop
的位置配置没有问题,接着开始配置Hadoop
中的应用配置。
配置core-site.xml
(具体是/data/hadoop/app/etc/hadoop/core-site.xml
):
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/data/hadoop/temp</value> </property> </configuration>
fs.defaultFS
:nameNode
的HDFS
协议的文件系统通讯地址hadoop.tmp.dir
:Hadoop
集群在工做的时候存储的一些临时文件的目录配置hdfs-site.xml
(具体是/data/hadoop/app/etc/hadoop/hdfs-site.xml
):
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>/data/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/data/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.secondary.http.address</name> <value>hadoop03:50090</value> </property> <property> <name>dfs.http.address</name> <value>192.168.56.200:50070</value> </property> </configuration>
dfs.namenode.name.dir
:NameNode
的数据存放目录dfs.datanode.data.dir
:DataNode
的数据存放目录dfs.replication
:HDFS
的副本数dfs.secondary.http.address
:SecondaryNameNode
节点的HTTP
入口地址dfs.http.address
:经过HTTP
访问HDFS
的Web
管理界面的地址配置mapred-site.xml
(具体是/data/hadoop/app/etc/hadoop/mapred-site.xml
):
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> <property> <name>mapreduce.map.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value> </property> </configuration>
mapreduce.framework.name
:选用yarn
,也就是MR
框架使用YARN
进行资源调度。配置yarn-site.xml
(具体是/data/hadoop/app/etc/hadoop/yarn-site.xml
):
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop03</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
yarn.resourcemanager.hostname
:指定ResourceManager
所在的主机名yarn.nodemanager.aux-services
:指定YARN
集群为MapReduce
程序提供Shuffle
服务配置workers
文件(这个文件在旧版本叫slaves
,由于技术政治化运动被改成workers
,具体是/data/hadoop/app/etc/hadoop/workers
:
hadoop01 hadoop02 hadoop03
至此,核心配置基本完成。
重点提示三次:
Hadoop
安装包位置和配置信息必须一致Hadoop
安装包位置和配置信息必须一致Hadoop
安装包位置和配置信息必须一致在节点hadoop01
使用scp
命令进行分发:
## 分发节点2 scp -r /data/hadoop/app hadoop@hadoop02:/data/hadoop ## 分发节点3 scp -r /data/hadoop/app hadoop@hadoop03:/data/hadoop
规划中是hadoop01
做为NameNode
,在该机器下进行格式化:
hadoop namenode -format
格式化NameNode
成功的控制台日志以下:
能够在任意一个节点中启动和中止HDFS
,为了简单起见仍是在hadoop01
节点中操做:
start-dfs.sh
stop-dfs.sh
调用启动命令后,控制台输出以下:
[hadoop@hadoop01 hadoop]$ start-dfs.sh Starting namenodes on [hadoop01] Starting datanodes Starting secondary namenodes [hadoop03]
YARN
集群的启动命令必须在ResourceManager
节点中调用,规划中的对应角色的节点为hadoop03
,在该机器执行YARN
相关命令:
start-yarn.sh
stop-yarn.sh
执行启动命令后,控制台输出以下:
[hadoop@hadoop03 data]$ start-yarn.sh Starting resourcemanager Starting nodemanagers
分别查看集群中全部节点的进程状态,能够直接使用jps
工具,具体结果以下:
[hadoop@hadoop01 hadoop]$ jps 8673 NameNode 8823 DataNode 9383 NodeManager 9498 Jps [hadoop@hadoop02 hadoop]$ jps 4305 DataNode 4849 Jps 4734 NodeManager [hadoop@hadoop03 data]$ jps 9888 Jps 9554 NodeManager 5011 DataNode 9427 ResourceManager 5125 SecondaryNameNode
可见进程是正常运行的。
访问入口以下:
HDFS
入口:http://192.168.56.200:50070
(来自于hdfs-site.xml
的dfs.http.address
配置项)YARN
入口:http://192.168.56.202:8088/cluster
(ResourceManager
所在节点的8088
端口)数据节点状态以下:
YARN
集群状态以下:
经过几个简单的例子尝试使用Hadoop
集群。
测试一下建立目录和展现目录:
[hadoop@hadoop01 hadoop]$ hadoop fs -mkdir -p /test [hadoop@hadoop01 hadoop]$ hadoop fs -ls / Found 1 items drwxr-xr-x - hadoop supergroup 0 2020-12-13 10:55 /test
建立一个words.txt
,写入内容而且上传到上一小节建立的test
文件夹中:
cd /data/hadoop touch words.txt echo 'hello world' >> words.txt hadoop fs -put words.txt /test
而后在HDFS
的WEB
界面中查看:
下载该文件到/data/hadoop/download.txt
:
[hadoop@hadoop01 hadoop]$ hadoop fs -get /test/words.txt /data/hadoop/download.txt && \ cat /data/hadoop/download.txt hello world
上传一个文件到HDFS
的/test/input
目录:
cd /data/hadoop && \ hadoop fs -mkdir -p /test/input && \ touch words-input.txt && \ echo 'hello world' >> words-input.txt && \ echo 'hello java' >> words-input.txt && \ echo 'hello hadoop' >> words-input.txt && \ hadoop fs -put words-input.txt /test/input
自带的例子在目录/data/hadoop/app/share/hadoop/mapreduce
的hadoop-mapreduce-examples-3.3.0.jar
中,经过命令运行WordCount
程序:
hadoop jar /data/hadoop/app/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /test/input /test/output
MR
的执行过程以下:
查看YARN
管理界面对应的Job
状态:
可知任务最终的执行状态为成功。最后能够经过hadoop fs -cat
命令查看结果:
[hadoop@hadoop01 hadoop]$ hadoop fs -ls /test/output Found 2 items -rw-r--r-- 3 hadoop supergroup 0 2020-12-13 11:19 /test/output/_SUCCESS -rw-r--r-- 3 hadoop supergroup 32 2020-12-13 11:19 /test/output/part-r-00000 [hadoop@hadoop01 hadoop]$ hadoop fs -cat /test/output/part-r-00000 hadoop 1 hello 3 java 1 world 1
本文花了大量时间详细记录了如何从零开始搭建一个Hadoop
集群,基于此才能进一步学习和使用Hadoop
生态中的组件如Hive
、Sqoop
和Hbase
等等,后续会逐个击破。
(本文完 c-2-d e-a-20201213)