centos 搭建hadoop分布式集群

时间 2019-12-19

原文原文链接

本教程讲述如何配置 Hadoop 集群.html

本教程适合于原生 Hadoop 2，包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行 Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。node

为了方便新手入门，咱们准备了两篇不一样系统的 Hadoop 伪分布式配置教程。但其余 Hadoop 教程咱们将再也不区分，可同时适用于 Ubuntu 和 CentOS/RedHat 系统。例如本教程以 Ubuntu 系统为主要演示环境，但对 Ubuntu/CentOS 的不一样配置之处、CentOS 6.x 与 CentOS 7 的操做区别等都会尽可能给出注明。web

环境

本教程使用 Ubuntu 14.04 64位 做为系统环境，基于原生 Hadoop 2，在 Hadoop 2.6.0 (stable) 版本下验证经过，可适合任何 Hadoop 2.x.y 版本，例如 Hadoop 2.7.1，Hadoop 2.4.1 等。apache

本教程简单的使用两个节点做为集群环境: 一个做为 Master 节点，局域网 IP 为 192.168.1.121；另外一个做为 Slave 节点，局域网 IP 为 192.168.1.122。vim

准备工做

Hadoop 集群的安装配置大体为以下流程:centos

选定一台机器做为 Master
在 Master 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境
在 Master 节点上安装 Hadoop，并完成配置
在其余 Slave 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境
将 Master 节点上的 /usr/local/hadoop 目录复制到其余 Slave 节点上
在 Master 节点上开启 Hadoop

配置 hadoop 用户、安装 SSH server、安装 Java 环境、安装 Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或 CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，再也不重复叙述。bash

继续下一步配置前，请先完成上述流程的前 4 个步骤。网络

网络配置

假设集群所用的节点都位于同一个局域网。app

若是使用的是虚拟机安装的系统，那么须要更改网络链接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在 VirturalBox 中的设置以下图。此外，若是节点的系统是在虚拟机中直接复制的，要确保各个节点的 Mac 地址不一样（能够点右边的按钮随机生成 MAC 地址，不然 IP 会冲突）：ssh

VirturalBox中节点的网络设置

Linux 中查看节点 IP 地址的命令为 ifconfig，即下图所示的 inet 地址（注意虚拟机安装的 CentoS 不会自动联网，须要点右上角连上网络才能看到 IP 地址）：

首先在 Master 节点上完成准备工做，并关闭 Hadoop (/usr/local/hadoop/sbin/stop-dfs.sh)，再进行后续集群配置。

为了便于区分，能够修改各个节点的主机名（在终端标题、命令行中能够看到主机名，以便区分）。在 Ubuntu/CentOS 7 中，咱们在 Master 节点上执行以下命令修改主机名（即改成 Master，注意是区分大小写的）：

sudo vim /etc/hostname

若是是用 CentOS 6.x 系统，则是修改 /etc/sysconfig/network 文件，改成 HOSTNAME=Master，以下图所示：

而后执行以下命令修改本身所用节点的IP映射：

sudo vim /etc/hosts

例如本教程使用两个节点的名称与对应的 IP 关系以下：

192.168.1.121   Master
192.168.1.122   Slave1

咱们在 /etc/hosts 中将该映射关系填写上去便可，以下图所示（通常该文件中只有一个 127.0.0.1，其对应名为 localhost，若是有多余的应删除，特别是不能有 “127.0.0.1 Master” 这样的记录）：

CentOS 中的 /etc/hosts 配置则以下图所示：

修改完成后须要重启一下，重启后在终端中才会看到机器名的变化。接下来的教程中请注意区分 Master 节点与 Slave 节点的操做。

须要在全部节点上完成网络配置

如上面讲的是 Master 节点的配置，而在其余的 Slave 节点上，也要对 /etc/hostname（修改成 Slave一、Slave2 等）和 /etc/hosts（跟 Master 的配置同样）这两个文件进行修改！

配置好后须要在各个节点上执行以下命令，测试是否相互 ping 得通，若是 ping 不通，后面就没法顺利配置成功：

ping Master -c 3 # 只ping 3次，不然要按 Ctrl+c 中断
ping Slave1 -c 3

例如我在 Master 节点上 ping Slave1，ping 通的话会显示 time，显示的结果以下图所示：

继续下一步配置前，请先完成全部节点的网络配置，修改过主机名的话需重启才能生效。

SSH无密码登录节点

这个操做是要让 Master 节点能够无密码 SSH 登录到各个 Slave 节点上。

首先生成 Master 节点的公匙，在 Master 节点的终端中执行（由于改过主机名，因此还须要删掉原有的再从新生成一次）：

cd ~/.ssh # 若是没有该目录，先执行一次ssh localhost
rm ./id_rsa* # 删除以前生成的公匙（若是有）
ssh-keygen -t rsa # 一直按回车就能够

让 Master 节点需能无密码 SSH 本机，在 Master 节点上执行：

cat ./id_rsa.pub >> ./authorized_keys

完成后可执行 ssh Master 验证一下（可能须要输入 yes，成功后执行 exit 返回原来的终端）。接着在 Master 节点将上公匙传输到 Slave1 节点：

scp ~/.ssh/id_rsa.pub hadoop@Slave1:/home/hadoop/

scp 是 secure copy 的简写，用于在 Linux 下进行远程拷贝文件，相似于 cp 命令，不过 cp 只能在本机中拷贝。执行 scp 时会要求输入 Slave1 上 hadoop 用户的密码(hadoop)，输入完成后会提示传输完毕，以下图所示：

接着在 Slave1 节点上，将 ssh 公匙加入受权：

mkdir ~/.ssh # 若是不存在该文件夹需先建立，若已存在则忽略
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub # 用完就能够删掉了

若是有其余 Slave 节点，也要执行将 Master 公匙传输到 Slave 节点、在 Slave 节点上加入受权这两步。

这样，在 Master 节点上就能够无密码 SSH 到各个 Slave 节点了，可在 Master 节点上执行以下命令进行检验，以下图所示：

ssh Slave1

在Master节点中ssh到Slave节点

配置PATH变量

（CentOS 单机配置 Hadoop 的教程中有配置这一项了，这一步能够跳过）

在单机伪分布式配置教程的最后，说到能够将 Hadoop 安装目录加入 PATH 变量中，这样就能够在任意目录中直接使用 hadoo、hdfs 等命令了，若是尚未配置的，须要在 Master 节点上进行配置。首先执行 vim ~/.bashrc，加入一行：

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

以下图所示：

保存后执行 source ~/.bashrc 使配置生效。

配置集群/分布式环境

集群/分布式模式须要修改 /usr/local/hadoop/etc/hadoop 中的5个配置文件，更多设置项可点击查看官方说明，这里仅设置了正常启动所必须的设置项： slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 。

1, 文件 slaves，将做为 DataNode 的主机名写入该文件，每行一个，默认为 localhost，因此在伪分布式配置时，节点即做为 NameNode 也做为 DataNode。分布式配置能够保留 localhost，也能够删掉，让 Master 节点仅做为 NameNode 使用。

本教程让 Master 节点仅做为 NameNode 使用，所以将文件中原来的 localhost 删除，只添加一行内容：Slave1。

2, 文件 core-site.xml 改成下面的配置：

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://Master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
</configuration>

3, 文件 hdfs-site.xml，dfs.replication 通常设为 3，但咱们只有一个 Slave 节点，因此 dfs.replication 的值仍是设为 1：

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Master:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>

4, 文件 mapred-site.xml （可能须要先重命名，默认文件名为 mapred-site.xml.template），而后配置修改以下：

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>Master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>Master:19888</value>
</property>
</configuration>

5, 文件 yarn-site.xml：

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>Master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

配置好后，将 Master 上的 /usr/local/Hadoop 文件夹复制到各个节点上。由于以前有跑过伪分布式模式，建议在切换到集群模式前先删除以前的临时文件。在 Master 节点上执行：

cd /usr/local
sudo rm -r ./hadoop/tmp # 删除 Hadoop 临时文件
sudo rm -r ./hadoop/logs/* # 删除日志文件
tar -zcf ~/hadoop.master.tar.gz ./hadoop # 先压缩再复制
cd ~
scp ./hadoop.master.tar.gz Slave1:/home/hadoop

在 Slave1 节点上执行：

sudo rm -r /usr/local/hadoop # 删掉旧的（若是存在）
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/hadoop

一样，若是有其余 Slave 节点，也要执行将 hadoop.master.tar.gz 传输到 Slave 节点、在 Slave 节点解压文件的操做。

首次启动须要先在 Master 节点执行 NameNode 的格式化：

hdfs namenode -format # 首次运行须要执行初始化，以后不须要

CentOS系统须要关闭防火墙

CentOS系统默认开启了防火墙，在开启 Hadoop 集群以前，须要关闭集群中每一个节点的防火墙。有防火墙会致使 ping 得通但 telnet 端口不通，从而致使 DataNode 启动了，但 Live datanodes 为 0 的状况。

在 CentOS 6.x 中，能够经过以下命令关闭防火墙：

sudo service iptables stop # 关闭防火墙服务
sudo chkconfig iptables off # 禁止防火墙开机自启，就不用手动关闭了

若用是 CentOS 7，需经过以下命令关闭（防火墙服务改为了 firewall）：

systemctl stop firewalld.service # 关闭firewall
systemctl disable firewalld.service # 禁止firewall开机启动

以下图，是在 CentOS 6.x 中关闭防火墙：

接着能够启动 hadoop 了，启动须要在 Master 节点上进行：

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

经过命令 jps 能够查看各个节点所启动的进程。正确的话，在 Master 节点上能够看到 NameNode、ResourceManager、SecondrryNameNode、JobHistoryServer 进程，以下图所示：

在 Slave 节点能够看到 DataNode 和 NodeManager 进程，以下图所示：

缺乏任一进程都表示出错。另外还须要在 Master 节点上经过命令 hdfs dfsadmin -report 查看 DataNode 是否正常启动，若是 Live datanodes 不为 0 ，则说明集群启动成功。例如我这边一共有 1 个 Datanodes：

也能够经过 Web 页面看到查看 DataNode 和 NameNode 的状态：http://master:50070/。若是不成功，能够经过启动日志排查缘由。

伪分布式、分布式配置切换时的注意事项

从分布式切换到伪分布式时，不要忘记修改 slaves 配置文件；

在二者之间切换时，若遇到没法正常启动的状况，能够删除所涉及节点的临时文件夹，这样虽然以前的数据会被删掉，但能保证集群正确启动。因此若是集群之前能启动，但后来启动不了，特别是 DataNode 没法启动，不妨试着删除全部节点（包括 Slave 节点）上的 /usr/local/hadoop/tmp 文件夹，再从新执行一次 hdfs namenode -format，再次启动试试。

执行分布式实例

执行分布式实例过程与伪分布式模式同样，首先建立 HDFS 上的用户目录：

hdfs dfs -mkdir -p /user/hadoop

将 /usr/local/hadoop/etc/hadoop 中的配置文件做为输入文件复制到分布式文件系统中：

hdfs dfs -mkdir input
hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input

经过查看 DataNode 的状态（占用大小有改变），输入文件确实复制到了 DataNode 中，以下图所示：

接着就能够运行 MapReduce 做业了：

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

运行时的输出信息与伪分布式相似，会显示 Job 的进度。

可能会有点慢，但若是迟迟没有进度，好比 5 分钟都没看到进度，那不妨重启 Hadoop 再试试。若重启还不行，则颇有多是内存不足引发，建议增大虚拟机的内存，或者经过更改 YARN 的内存配置解决。

一样能够经过 Web 界面查看任务进度 http://master:8088/cluster

在 Web 界面点击 “Tracking UI” 这一列的 History 链接，能够看到任务的运行信息，以下图所示：

执行完毕后的输出结果：

关闭 Hadoop 集群也是在 Master 节点上执行的：

stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

此外，同伪分布式同样，也能够不启动 YARN，但要记得改掉 mapred-site.xml 的文件名。

自此，你就掌握了 Hadoop 的集群搭建与基本使用了。