大数据 -- Hadoop集群环境搭建

时间 2019-11-06

原文原文链接

首先咱们来认识一下HDFS， HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。它实际上是将一个大文件分红若干块保存在不一样服务器的多个节点中。经过联网让用户感受像是在本地同样查看文件，为了下降文件丢失形成的错误，它会为每一个小文件复制多个副本（默认为三个），以此来实现多机器上的多用户分享文件和存储空间。html

Hadoop主要包含三个模块：java

HDFS模块：HDFS负责大数据的存储，经过将大文件分块后进行分布式存储方式，突破了服务器硬盘大小的限制，解决了单台机器没法存储大文件的问题，HDFS是个相对独立的模块，能够为YARN提供服务，也能够为HBase等其余模块提供服务。
YARN模块：YARN是一个通用的资源协同和任务调度框架，是为了解决Hadoop中MapReduce里NameNode负载太大和其余问题而建立的一个框架。YARN是个通用框架，不止能够运行MapReduce，还能够运行Spark、Storm等其余计算框架。
MapReduce模块：MapReduce是一个计算框架，它给出了一种数据处理的方式，即经过Map阶段、Reduce阶段来分布式地流式处理数据。它只适用于大数据的离线处理，对实时性要求很高的应用不适用。多相关信息能够参考博客：初识HDFS（10分钟了解HDFS、NameNode和DataNode）。

本节将会介绍Hadoop集群的配置，目标主机咱们能够选择虚拟机中的多台主机或者多台阿里云服务器。node

注意：如下全部操做都是在root用户下执行的，所以基本不会出现权限错误问题。linux

1、Vmware安装

VMware虚拟机有三种网络模式，分别是Bridged(桥接模式)、NAT(网络地址转换模式)、Host-only(主机模式)：web

桥接：选择桥接模式的话虚拟机和宿主机在网络上就是平级的关系，至关于链接在同一交换机上；算法
NAT：NAT模式就是虚拟机要联网得先经过宿主机才能和外面进行通讯；apache
仅主机：虚拟机与宿主机直接连起来。

具体区别能够参考博客：Vmware虚拟机下三种网络模式配置。vim

VMware Workstation Pro 15中文破解版下载地址：http://www.zdfans.com/html/16025.html，参考安装破解教程进行安装。centos

2、CentOS安装

CentOS7下载地址;http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso。安全

在Vmware中安装CentOS7的步骤能够参考博客：VMware安装Centos7超详细过程（图文）（包含克隆模式）。

一、网络模式配置为桥接模式，CentOS7网络IP配置参考博客：Centos7虚拟机桥接模式设置静态ip。

二、配置主机名

vi  /etc/sysconfig/network

三、配置Host

 vi /etc/hosts

192.168.1.100为CentOS7网络IP配置中设置的本机的静态IP地址。

四、关闭防火墙和selinux

service iptables stop

vim /etc/sysconfig/selinux

三阿里云服务器环境搭建

若是能够申请到阿里云服务器推荐使用阿里云服务器，这里申请的时CentOS 7.2，相关步骤能够参考博客：大数据 -- zookeeper和kafka集群环境搭建第一节。

查看防火墙状态：

systemctl status firewalld

若是是开启，须要利用命令将防火墙关闭：

systemctl stop firewalld
systemctl disable firewalld

四安装JDK

JDK安装能够参考博客大数据 -- zookeeper和kafka集群环境搭建第二节。

五伪分布式安装

Hadoop部署模式主要有：本地模式、伪分布模式、彻底分布式模式、HA彻底分布式模式。

区分的依据是NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。

模式名称	各个模块占用的JVM进程数	各个模块运行在几个机器数上
本地模式	1个	1个
伪分布式模式	N个	1个
彻底分布式模式	N个	N个
HA彻底分布式	N个	N个

下面我选择将Hadoop伪分布式模式安装在阿里云服务器zy1主机上。伪分布式模式能够看做是彻底分布式，可是跑在一个节点上，全部的进程都配置在一个节点上，拥有分布式文件系统，只不过这个系统只有一个节点。

一、下载并解压

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz
tar -zxvf hadoop-2.8.5.tar.gz -C /opt/bigdata

从新命名：

mv hadoop-2.8.5 hadoop

二、配置Hadoop环境变量

vim /etc/profile

追加配置：

export HADOOP_HOME=/opt/bigdata/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使配置生效：

. /etc/profile

三、验证HADOOP_HOME参数

echo $HADOOP_HOME

四、配置 hadoop-env.sh JAVA_HOME参数

修改hadoop-env.sh：

vim  ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh

修改JAVA_HOME参数为：

export JAVA_HOME=/usr/lib/jvm/java

五、配置core-site.xml

vim ${HADOOP_HOME}/etc/hadoop/core-site.xml

添加内容以下：

<configuration>
    <property>
       <name>fs.defaultFS</name>
       <value>hdfs://zy1:9000</value>
    </property>
    <property>
       <name>hadoop.tmp.dir</name>
      <value>/opt/bigdata/data/hadoop</value>
    </property>
</configuration>

fs.defaultFS：配置的是HDFS的目录；
hadoop.tmp.dir：配置的是Hadoop临时目录，好比HDFS的NameNode数据默认都存放这个目录下，查看*-default.xml等默认配置文件，就能够看到不少依赖${hadoop.tmp.dir}的配置。默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下，若是操做系统重启了，系统会清空/tmp目录下的东西，致使NameNode元数据丢失，是个很是严重的问题，全部咱们应该修改这个路径。

建立临时目录：

mkdir -p /opt/bigdata/data/hadoop

六、配置hdfs-site.xml：

vim ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml

添加内容以下：

<configuration>
 <property>
       <name>dfs.replication</name>
       <value>1</value>
    </property>
</configuration>

dfs.replication配置的是HDFS存储时的备份数量，由于这里是伪分布式环境只有一个节点，因此这里设置为1。

七、格式化HDFS：

hdfs namenode -format

注意：若是格式化成功了，不能够再继续格式化，若是想继续格式化能够参考Hadoop1从新格式化HDFS。若是没有格式化成功，须要一直格式化。

格式化后，查看core-site.xml里hadoop.tmp.dir（本例是/opt/bigdata/data/hadoop目录）指定的目录下是否有了dfs目录，若是有，说明格式化成功。

ll /opt/bigdata/data/hadoop

其中/opt/bigdata/data/hadoop/dfs/name/current下文件以下：

fsimage是NameNode元数据在内存满了后，持久化保存到的文件;
fsimage*.md5 是校验文件，用于校验fsimage的完整性;
seen_txid 是hadoop的版本;
vession文件里保存：namespaceID：是文件系统命名空间的惟一标识符，是在NameNode首次格式化时建立的。clusterID:集群ID，对于联邦HDFS很是重要，这里一个集群由多个命名空间组成，且每一个命名空间由一个NameNode管理。blockpoolID是数据块池的惟一标识符，数据块池包含了由一个NameNode管理的命名空间中的全部文件。NameNode和DataNode的集群ID应该一致，代表是一个集群。

八、启动NameNode

hadoop-daemon.sh start namenode

九、启动DataNode

hadoop-daemon.sh start datanode

十、启动SecondaryNameNode

hadoop-daemon.sh start secondarynamenode

十一、JPS命令查看是否已经启动成功，有结果就是启动成功了

jps

十二、HDFS上测试建立目录、上传、下载文件

HDFS上建立目录：

hdfs dfs -mkdir /demo1

上传本地文件到HDFS上:

hdfs dfs -put  ${HADOOP_HOME}/etc/hadoop/core-site.xml /demo1

读取HDFS上的文件内容：

hdfs dfs -cat /demo1/core-site.xml

从HDFS上下载文件到本地：

hdfs dfs -get /demo1/core-site.xml

更多hdfs文件系统的命令能够查看：

hdfs  dfs

1三、配置mapred-site.xml

默认没有mapred-site.xml文件，可是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml：

cd /opt/bigdata/hadoop/
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

添加配置

vim etc/hadoop/mapred-site.xml

指定mapreduce运行在yarn框架上。

<configuration>
  <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
  </property>
</configuration>

1四、配置yarn-site.xml

vim etc/hadoop/yarn-site.xml

yarn.nodemanager.aux-services配置了yarn的默认混洗方式，选择为mapreduce的默认混洗算法。

yarn.resourcemanager.hostname指定了Resourcemanager运行在哪一个节点上。

<configuration>

<!-- Site specific YARN configuration properties -->
 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>
   <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>zy1</value>
   </property>
</configuration>

1五、启动Resourcemanager

yarn-daemon.sh start resourcemanager

1六、启动nodemanager

yarn-daemon.sh start nodemanager

1七、查看是否启动成功

能够看到ResourceManager、NodeManager已经启动成功了。

1八、YARN的Web页面

YARN的Web客户端端口号是8088，经过http://106.15.74.155:8088/能够查看当前执行的job。

注意：因为使用到了8088端口。须要在阿里云中配置入规则，具体能够参考阿里云官方收藏：同一个地域、不一样帐号下的实例实现内网互通。

1九、hdfs的web页面

hdfs的Web客户端端口号是50070，经过http://106.15.74.155:50070/能够查看。

20、运行MapReduce Job

在Hadoop的share目录里，自带了一些jar包，里面带有一些mapreduce实例小例子，位置在share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar，能够运行这些例子体验刚搭建好的Hadoop平台，咱们这里来运行最经典的WordCount实例。

在hdfs文件系统上建立测试用的Input文件:

hdfs dfs -mkdir -p /wordcountdemo/input

建立原始文件:

在本地/opt/bigdata/data/hadoop目录建立一个文件wc.input，vim /opt/bigdata/data/hadoop/wc.input内容以下:

doop mapreduce hive
hbase spark storm
sqoop hadoop hive
spark hadoop

将wc.input文件上传到HDFS的/wordcountdemo/input目录中:

hdfs dfs -put /opt/bigdata/data/hadoop/wc.input /wordcountdemo/input

运行WordCount MapReduce Job：

cd /opt/bigdata/hadoop
yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount /wordcountdemo/input  /wordcountdemo/output

注意：若是执行一直卡在map 0% reduce 0%，多是因为硬件配置较低的缘由：

更多错误能够查看日志：$HADOOP_HOME/logs:

 more $HADOOP_HOME/logs/yarn-root-nodemanager-zy1.log 
 more $HADOOP_HOME/logs/yarn-root-resourcemanager-zy1.log

若是运行成功，查看输出结果目录：

hdfs dfs -ls /wordcountdemo/output

output目录中有两个文件:

_SUCCESS文件是空文件，有这个文件说明Job执行成功。
part-r-00000文件是结果文件，其中-r-说明这个文件是Reduce阶段产生的结果，mapreduce程序执行时，能够没有reduce阶段，可是确定会有map阶段，若是没有reduce阶段这个地方有是-m-。一个reduce会产生一个part-r-开头的文件。

查看输出文件内容:

hdfs dfs -cat /wordcountdemo/output/part-r-00000

结果是按照键值排好序的。

2一、中止Hadoop

hadoop-daemon.sh stop namenode 
hadoop-daemon.sh stop datanode 
hadoop-daemon.sh stop secondarynamenode 
yarn-daemon.sh stop resourcemanager 
yarn-daemon.sh stop nodemanager

2二、开启历史服务

Hadoop开启历史服务能够在web页面上查看Yarn上执行job状况的详细信息。能够经过历史服务器查看已经运行完的Mapreduce做业记录，好比用了多少个Map、用了多少个Reduce、做业提交时间、做业启动时间、做业完成时间等信息。

mr-jobhistory-daemon.sh start historyserver

开启后，能够经过Web页面查看历史服务器：http://106.15.74.155:19888/

2三、开启日志汇集

MapReduce是在各个机器上运行的，在运行过程当中产生的日志存在于各个机器上，为了可以统一查看各个机器的运行日志，将日志集中存放在HDFS上，这个过程就是日志汇集。

Hadoop默认是不启用日志汇集的。在yarn-site.xml文件里配置启用日志汇集。

<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
 </property>
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>106800</value>
 </property>

yarn.log-aggregation-enable:是否启用日志汇集功能。

yarn.log-aggregation.retain-seconds：设置日志保留时间，单位是秒。

重启Yarn进程：

stop-yarn.sh
start-yarn.sh

重启HistoryServer进程：

mr-jobhistory-daemon.sh stop historyserver
mr-jobhistory-daemon.sh start historyserver

测试日志汇集：运行一个demo MapReduce，使之产生日志：

yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount /wordcountdemo/input  /wordcountdemo/output

运行Job后，就能够在历史服务器Web页面查看各个Map和Reduce的日志了。

六彻底分布式安装

彻底分部式是真正利用多台Linux主机来进行部署Hadoop，对Linux机器集群进行规划，使得Hadoop各个模块分别部署在不一样的多台机器上。

若是以前你是在虚拟机上建立了zy1主机，那么你能够利用Vmware的克隆功能建立zy二、zy3主机，而后你须要按照第二节的步骤，配置网络、主机名、Host、这里就不过多介绍了。

下面咱们以阿里云的三台主机zy一、zy二、zy3为例，搭建彻底分布式。

一、服务器功能规划

zy1	zy2	zy3
NameNode	ResourceManage
DataNode	DataNode	DataNode
NodeManager	NodeManager	NodeManager
HistoryServer		SecondaryNameNode

在zy1节点安装新的Hadoop：

为了和以前zy1机器上安装伪分布式Hadoop区分开来，咱们将zy1上的Hadoop服务都中止掉，将伪分布式hadoop的安装目录改成hadoop-wei，修改配置core-site.xml，中的hadoop.tmp.dir为/opt/bigdata/data/hadoop-wei，而后/opt/bigdata/下安装另一个Hadoop。

hadoop-daemon.sh stop namenode 
hadoop-daemon.sh stop datanode 
hadoop-daemon.sh stop secondarynamenode 
yarn-daemon.sh stop resourcemanager 
yarn-daemon.sh stop nodemanager
cd /opt/bigdata
mv hadoop hadoop-wei
vim hadoop-wei/etc/hadoop/core-site.xml    #修改hadoop.tmp.dir
mv /opt/bigdata/data/hadoop /opt/bigdata/data/hadoop-wei

咱们采用先在第一台机器上解压、配置Hadoop，而后再分发到其余两台机器上的方式来安装集群。

二、解压Hadoop目录

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz
tar -zxvf hadoop-2.8.5.tar.gz -C /opt/bigdata
mv hadoop-2.8.5 hadoop

因为在伪分布式安装时，咱们已经配置了hadoop的环境变量，这里就不须要再重复配置了。咱们能够经过如下命令验证：

echo $HADOOP_HOME

三、配置 hadoop-env.sh、mapred-env.sh yarn-env.sh JAVA_HOME参数

好比修改hadoop-env.sh：

vim  ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh

修改JAVA_HOME参数为：

export JAVA_HOME=/usr/lib/jvm/java

四、配置core-site.xml

vim ${HADOOP_HOME}/etc/hadoop/core-site.xml

添加内容以下：

<configuration>
    <property>
       <name>fs.defaultFS</name>
       <value>hdfs://zy1:9000</value>
    </property>
    <property>
       <name>hadoop.tmp.dir</name>
      <value>/opt/bigdata/data/hadoop</value>
    </property>
    <property>
       <name>dfs.namenode.name.dir</name>
       <value>file://${hadoop.tmp.dir}/dfs/name</value>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>file://${hadoop.tmp.dir}/dfs/data</value>
    </property>
</configuration>

fs.defaultFS为NameNode的地址。
hadoop.tmp.dir：为hadoop临时目录的地址，默认状况下，NameNode和DataNode的数据文件都会存在这个目录下的对应子目录下（可是上面咱们经过dfs.datanode.data.dir，和dfs.namenode.data.dir指定了）。应该保证此目录是存在的，若是不存在，先建立；
dfs.namenode.name.dir：指定目录来供namenode存储永久性的文件系统元数据（若是指定多个路径，使用","隔开）。这些元数据文件会同时备份在全部指定的目录上，一般状况下，经过配置dfs.namenode.data.dir能够将namenode元数据写到一两个本地磁盘和一个远程磁盘（例如NFS挂载目录）之中。这样的话，即便本地磁盘发生故障，甚至整个namenode发生故障，均可以恢复数据文件并从新构成新的namenode（辅助namenode只是按期保存namenode的检查点，不维护namenode的最新备份）；
dfs.datanode.data.dir：能够设定datanode存储数据块的目录列表，上面提到dfs.namenode.name.dir描述一系列目录，其目的是为了支持namenode进行冗余备份。虽然dfs.datanode.data.dir也描述了一系列目录，可是其目的是使datanode循环的在各个目录中写数据。所以，为了提升性能，最好分别为各个本地磁盘指定一个存储目录，这样一来，数据块跨磁盘分布，针对不一样的数据块的读操做能够并发执行，从而提升读取速度。

mkdir /opt/bigdata/data/hadoop

注意：NameNode使用到了9000端口，用于创建与datanode节点的通讯。所以namenode节点须要在阿里云中配置入规则，具体能够参考阿里云官方收藏：同一个地域、不一样帐号下的实例实现内网互通。

五、配置hdfs-site.xml

vim ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml

添加如下内容：

<configuration>
 <property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>zy3:50090</value>
 </property>
 <property>
       <name>dfs.replication</name>
       <value>2</value>
  </property>
  <property>
        <name>dfs.client.use.datanode.hostname</name>
        <value>true</value>
    </property>
  <property>
        <name>dfs.datanode.use.datanode.hostname</name>
        <value>true</value>
    </property>
</configuration>

dfs.namenode.secondary.http-address：是指定secondaryNameNode的http访问地址和端口号，由于在规划中，咱们将zy3规划为SecondaryNameNode服务器。因此这里设置为：zy3:50090。

dfs.replication配置的是HDFS存储时的备份数量，这里设置为2；
fs.client.use.datanode.hostname：是否客户端应该使用DN的HostName，在链接DN时，默认是使用IP；（必须设置为true）
dfs.datanode.use.datanode.hostname：是否DN应该使用HostName链接其它DN，在数据传输时。默认是是IP。（必须设置为true）

六、配置masters、slaves

cd hadoop
vim etc/hadoop/masters
vim etc/hadoop/slaves

masters修改成：

slavers：

masters文件是指定HDFS的主节点。

slaves文件是指定HDFS上有哪些DataNode节点。

七、配置mapred-site.xml

默认没有mapred-site.xml文件，可是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml：

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

添加配置：

vim etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>zy1:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>zy1:19888</value>
    </property>
</configuration>

mapreduce.framework.name设置mapreduce任务运行在yarn上；
mapreduce.jobhistory.address是设置mapreduce的历史服务器安装在zy1机器上；
mapreduce.jobhistory.webapp.address是设置历史服务器的web页面地址和端口号。

八、配置yarn-site.xml

vim etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>zy2</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>106800</value>
    </property>
</configuration>

yarn.nodemanager.aux-services配置了yarn的默认混洗方式，选择为mapreduce的默认混洗算法；
yarn.resourcemanager.hostname指定了Resourcemanager运行在zy2节点上；
yarn.log-aggregation-enable是配置是否启用日志汇集功能；
yarn.log-aggregation.retain-seconds是配置汇集的日志在HDFS上最多保存多长时间；

九、设置SSH无密码登陆

Hadoop集群中的各个机器间会相互地经过SSH访问，每次访问都输入密码是不现实的，因此要配置各个机器间的SSH是无密码登陆的。

在zy1上生成公钥：

ssh-keygen -t rsa

一路回车，都设置为默认值，而后再当前用户的Home目录下的.ssh目录中会生成公钥文件（id_rsa.pub）和私钥文件（id_rsa）。

分发公钥：

ssh-copy-id zy1
ssh-copy-id zy2
ssh-copy-id zy3

设置zy二、zy3到其余机器的无密钥登陆：一样的在zy二、zy3上生成公钥和私钥后，将公钥分发到三台机器上。

十、分发Hadoop文件

经过Scp分发：Hadoop根目录下的share/doc目录是存放的hadoop的文档，文件至关大，建议在分发以前将这个目录删除掉，能够节省硬盘空间并能提升分发的速度。

cd /opt/bigdata
rm -rf hadoop/share/doc
scp -r /opt/bigdata/hadoop/ zy2:/opt/bigdata
scp -r /opt/bigdata/hadoop/ zy3:/opt/bigdata

在每一个节点下执行：

mkdir /opt/bigdata/data/hadoop

十一、格式NameNode

在使用hadoop以前，全新的HDFS安装须要进行格式化。经过建立存储目录和初始化版本的namenode持久数据结构，格式化将建立一个空的文件系统。

在NameNode机器上(节点zy1)执行格式化：

hdfs namenode -format

注意：若是须要从新格式化NameNode，须要先将原来NameNode和DataNode下的文件所有删除，否则会报错，NameNode和DataNode所在目录是在core-site.xml中hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir属性配置的。

<configuration>
<property>
       <name>fs.defaultFS</name>
       <value>hdfs://zy1:9000</value>
    </property>
    <property>
       <name>hadoop.tmp.dir</name>
      <value>/opt/bigdata/data/hadoop</value>
    </property>
    <property>
       <name>dfs.namenode.name.dir</name>
       <value>file://${hadoop.tmp.dir}/dfs/name</value>
    </property>
    <property>
       <name>dfs.datanode.data.dir</name>
       <value>file://${hadoop.tmp.dir}/dfs/data</value>
    </property>
</configuration>

每次格式化，默认是建立一个集群ID，并写入NameNode的VERSION文件中（VERSION文件所在目录为dfs/name/current ）。

此时并无将集群ID写入DataNode的VERSION之中，因为namenode管理全部的文件系统的元数据，datanode能够动态的加入或离开集群，因此初始的格式化过程不涉及datanode。

只有在启动HDFS时，才会将ID写入DataNode的VERSION之中。若是咱们从新格式化HDFS，从新格式化时，默认会生成一个新的集群ID，若是不删除原来的数据目录，会致使namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID，不一致时会报错。

十二、启动HDFS

在zy1节点运行如下命令：

start-dfs.sh

zy3中的QuorumPeerMain进程不用管，这个是zookeeper进程。

咱们来查看如下各个节点的NameNode和DataNode目录：

能够看到已经将集群ID写入DataNode的VERSION之中：

1三、启动YARN

start-yarn.sh

在zy2上启动ResourceManager：

yarn-daemon.sh start resourcemanager

1四、启动日志服务器

由于咱们规划的是在zy1服务器上运行MapReduce日志服务，因此要在zy1上启动：

mr-jobhistory-daemon.sh start historyserver

如今来查看如下每一个节点下的日志文件：

1五、查看HDFS Web页面

hdfs的Web客户端端口号是50070，经过http://106.15.74.155:50070/能够查看。

1六、查看YARN Web 页面

YARN的Web客户端端口号是8088，因为ResourceManager设置在zy2节点上，所以经过http://47.103.134.70:8088/查看当前执行的job。

1七、测试Job

测试部分能够参考伪分布式测试内容http://www.javashuo.com/article/p-hsmxgagy-by.html。

在测试时会出现以下错误：

咱们须要配置阿里云的入规则，开放三个节点的50010端口：

此外，咱们还须要在阿里云安全组规则入规则开放每一个节点的803一、803二、50020等等。每一个节点具体须要开放什么端口，咱们能够经过查看日志得到，以节点zy2，为例：

 cat logs/hadoop-root-datanode-zy2.log

 cat logs/yarn-root-nodemanager-zy2.log

经过如下命令，能够查看该节点监听的端口：

netstat -ant

若是实在不知道须要在阿里云安全组规则中配置哪些端口，那就打开所有端口，可是这样可能并不安全：

1八、hadoop配置信息

Hadoop更多端口相关的配置参考：hadoop端口号配置信息、ResourceManager相关配置参数。

更多Hadoop的参数配置能够惨开：hadoop 参数配置。

1九、关闭hadoop

在各个节点下运行以下命令：

cd /opt/bigdata/hadoop
sbin/stop-all.sh

20、从新格式化和启动

在每一个节点运行以下命令：

cd /opt/bigdata/hadoop
sbin/stop-all.sh
rm -rf  logs/*
rm -rf ../data/hadoop/*

在namenode节点(zy1)运行：

hdfs namenode -format

而后在每一个节点运行相应启动hadoop的命令。

2一、错误排查

若是hadoop启动出现出错，要学会查看日志，日志位于hadoop安装路径下的logs目录下。

外网没法方位HDFS能够参考：外网没法访问云主机HDFS文件系统。

参考文章

[1]史上最详细的Hadoop环境搭建

[2]阿里云hadoop安装教程_彻底分布式_Hadoop 2.7.4/CentOS 7.4

[3]hadoop 阿里云伪分布式配置

大数据 -- Hadoop集群环境搭建

1、Vmware安装

2、CentOS安装

三 阿里云服务器环境搭建

四 安装JDK

五 伪分布式安装

一、下载并解压

二、 配置Hadoop环境变量

三、验证HADOOP_HOME参数

四、 配置 hadoop-env.sh JAVA_HOME参数

五、配置core-site.xml

六、配置hdfs-site.xml：

七、格式化HDFS：

八、启动NameNode

九、启动DataNode

十、 启动SecondaryNameNode

十一、JPS命令查看是否已经启动成功，有结果就是启动成功了

十二、HDFS上测试建立目录、上传、下载文件

1三、配置mapred-site.xml

1四、配置yarn-site.xml

1五、启动Resourcemanager

1六、 启动nodemanager

1七、查看是否启动成功

1八、YARN的Web页面

1九、hdfs的web页面

20、运行MapReduce Job

2一、中止Hadoop

2二、开启历史服务

2三、开启日志汇集

六 彻底分布式安装

一、服务器功能规划

二、解压Hadoop目录

三、配置 hadoop-env.sh、mapred-env.sh yarn-env.sh JAVA_HOME参数

四、配置core-site.xml

五、配置hdfs-site.xml

六、配置masters、slaves

七、配置mapred-site.xml

八、配置yarn-site.xml

九、设置SSH无密码登陆

十、分发Hadoop文件

十一、格式NameNode

十二、启动HDFS

1三、启动YARN

1四、启动日志服务器

1五、查看HDFS Web页面

1六、查看YARN Web 页面

1七、测试Job

1八、hadoop配置信息

1九、关闭hadoop

20、从新格式化和启动

2一、错误排查

三阿里云服务器环境搭建

四安装JDK

五伪分布式安装

二、配置Hadoop环境变量

四、配置 hadoop-env.sh JAVA_HOME参数

十、启动SecondaryNameNode

1六、启动nodemanager

六彻底分布式安装