Hadoop三种架构介绍及搭建

时间 2019-11-22

原文原文链接

apache hadoop三种架构介绍（standAlone，伪分布，分布式环境介绍以及安装）

hadoop 文档html

http://hadoop.apache.org/docs/java

一、StandAlone环境搭建

运行服务node	服务器IPweb
NameNodeapache	192.168.221.100bootstrap
SecondaryNameNodevim	192.168.221.100缓存
DataNode服务器	192.168.221.100架构
ResourceManager	192.168.221.100
NodeManager	192.168.221.100

第一步：下载apache hadoop并上传到服务器

下载连接：

http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz

解压命令

cd /export/softwares

tar -zxvf hadoop-2.7.5.tar.gz -C ../servers/

第二步：修改配置文件

修改core-site.xml

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim core-site.xml

<name>fs.default.name</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/export/servers/hadoop-2.7.5/hadoopDatas/tempDatas</value>

</property>

<name>io.file.buffer.size</name>

</property>

<name>fs.trash.interval</name>

</property>

</configuration>

修改hdfs-site.xml

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim hdfs-site.xml

<!-- 集群动态上下线

<name>dfs.hosts</name>

<value>/export/servers/hadoop-2.7.4/etc/hadoop/accept_host</value>

</property>

<name>dfs.hosts.exclude</name>

<value>/export/servers/hadoop-2.7.4/etc/hadoop/deny_host</value>

</property>

-->

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.namenode.http-address</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2</value>

</property>

<name>dfs.namenode.edits.dir</name>

<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/nn/edits</value>

</property>

<name>dfs.namenode.checkpoint.dir</name>

<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/snn/name</value>

</property>

<name>dfs.namenode.checkpoint.edits.dir</name>

<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

<name>dfs.blocksize</name>

</property>

</configuration>

修改hadoop-env.sh

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim hadoop-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_181

修改mapred-site.xml

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.job.ubertask.enable</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

</configuration>

修改yarn-site.xml

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

</configuration>

修改mapred-env.sh

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim mapred-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_181

修改slaves

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim slaves

localhost

第三步：启动集群

要启动 Hadoop 集群，须要启动 HDFS 和 YARN 两个模块。
注意：首次启动 HDFS 时，必须对其进行格式化操做。本质上是一些清理和
准备工做，由于此时的 HDFS 在物理上仍是不存在的。
hdfs namenode -format 或者 hadoop namenode –format

启动命令：

建立数据存放文件夹

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

准备启动

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/

bin/hdfs namenode -format

sbin/start-dfs.sh

sbin/start-yarn.sh

sbin/mr-jobhistory-daemon.sh start historyserver

三个端口查看界面

http://node01:50070/explorer.html#/ 查看hdfs

http://node01:8088/cluster 查看yarn集群

http://node01:19888/jobhistory 查看历史完成的任务

二、伪分布式环境搭建（适用于学习测试开发集群模式）

服务规划

服务器IP	192.168.221.100	192.168.221.110	192.168.221.120
主机名	node01.hadoop.com	node02.hadoop.com	node03.hadoop.com
NameNode	是	否	否
Secondary NameNode	是	否	否
dataNode	是	是	是
ResourceManager	是	否	否
NodeManager	是	是	是

中止单节点集群，删除/export/servers/hadoop-2.7.5/hadoopDatas文件夹，而后从新建立文件夹

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5

sbin/stop-dfs.sh

sbin/stop-yarn.sh

sbin/mr-jobhistory-daemon.sh stop historyserver

删除hadoopDatas而后从新建立文件夹

rm -rf /export/servers/hadoop-2.7.5/hadoopDatas

从新建立文件夹

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

修改slaves文件，而后将安装包发送到其余机器，从新启动集群便可

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim slaves

node01

node02

node03

安装包的分发

第一台机器执行如下命令

cd /export/servers/

scp -r hadoop-2.7.5 node02:$PWD

scp -r hadoop-2.7.5 node03:$PWD

启动集群

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5

bin/hdfs namenode -format

sbin/start-dfs.sh

sbin/start-yarn.sh

sbin/mr-jobhistory-daemon.sh start historyserver

三、分布式环境搭建（适用于工做当中正式环境搭建）

使用彻底分布式，实现namenode高可用，ResourceManager的高可用

集群运行服务规划

	192.168.1.100	192.168.1.110	192.168.1.120
zookeeper	zk	zk	zk
HDFS	JournalNode	JournalNode	JournalNode
	NameNode	NameNode
	ZKFC	ZKFC
	DataNode	DataNode	DataNode
YARN		ResourceManager	ResourceManager
YARN	NodeManager	NodeManager	NodeManager
MapReduce			JobHistoryServer

安装包解压

中止以前的hadoop集群的全部服务，并删除全部机器的hadoop安装包，而后从新解压hadoop压缩包

解压压缩包

第一台机器执行如下命令进行解压

cd /export/softwares

tar -zxvf hadoop-2.7.5.tar.gz -C ../servers/

配置文件的修改

修改core-site.xml

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim core-site.xml

<name>ha.zookeeper.quorum</name>

</property>

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/export/servers/hadoop-2.7.5/data/tmp</value>

</property>

<!-- 开启hdfs垃圾箱机制，指定垃圾箱中的文件七天以后就完全删掉

单位为分钟

-->

<name>fs.trash.interval</name>

</property>

</configuration>

修改hdfs-site.xml

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim hdfs-site.xml

<name>dfs.nameservices</name>

</property>

<name>dfs.ha.namenodes.ns</name>

</property>

<name>dfs.namenode.rpc-address.ns.nn1</name>

</property>

<name>dfs.namenode.rpc-address.ns.nn2</name>

</property>

<name>dfs.namenode.servicerpc-address.ns.nn1</name>

</property>

<name>dfs.namenode.servicerpc-address.ns.nn2</name>

</property>

<name>dfs.namenode.http-address.ns.nn1</name>

</property>

<name>dfs.namenode.http-address.ns.nn2</name>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://node01:8485;node02:8485;node03:8485/ns1</value>

</property>

<name>dfs.client.failover.proxy.provider.ns</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/export/servers/hadoop-2.7.5/data/dfs/jn</value>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///export/servers/hadoop-2.7.5/data/dfs/nn/name</value>

</property>

<name>dfs.namenode.edits.dir</name>

<value>file:///export/servers/hadoop-2.7.5/data/dfs/nn/edits</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:///export/servers/hadoop-2.7.5/data/dfs/dn</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

<name>dfs.blocksize</name>

</property>

</configuration>

修改yarn-site.xml，注意node03与node02配置不一样

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim yarn-site.xml

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.resourcemanager.ha.enabled</name>

</property>

<name>yarn.resourcemanager.cluster-id</name>

<value>mycluster</value>

</property>

<name>yarn.resourcemanager.ha.rm-ids</name>

</property>

<name>yarn.resourcemanager.hostname.rm1</name>

</property>

<name>yarn.resourcemanager.hostname.rm2</name>

</property>

<name>yarn.resourcemanager.address.rm1</name>

</property>

<name>yarn.resourcemanager.scheduler.address.rm1</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm1</name>

</property>

<name>yarn.resourcemanager.admin.address.rm1</name>

</property>

<name>yarn.resourcemanager.webapp.address.rm1</name>

</property>

<name>yarn.resourcemanager.address.rm2</name>

</property>

<name>yarn.resourcemanager.scheduler.address.rm2</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm2</name>

</property>

<name>yarn.resourcemanager.admin.address.rm2</name>

</property>

<name>yarn.resourcemanager.webapp.address.rm2</name>

</property>

<name>yarn.resourcemanager.recovery.enabled</name>

</property>

<name>yarn.resourcemanager.ha.id</name>

<value>rm1</value>[a1]

<description>If we want to launch more than one RM in single node, we need this configuration</description>

</property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

<name>yarn.resourcemanager.zk-address</name>

<description>For multiple zk services, separate them with comma</description>

</property>

<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>

<description>Enable automatic failover; By default, it is enabled only when HA is enabled.</description>

</property>

<name>yarn.client.failover-proxy-provider</name>

<value>org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider</value>

</property>

<name>yarn.nodemanager.resource.cpu-vcores</name>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

<name>yarn.scheduler.minimum-allocation-mb</name>

</property>

<name>yarn.scheduler.maximum-allocation-mb</name>

</property>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

<name>yarn.nodemanager.log.retain-seconds</name>

</property>

<name>yarn.nodemanager.log-aggregation.compression-type</name>

</property>

<name>yarn.nodemanager.local-dirs</name>

<value>/export/servers/hadoop-2.7.5/yarn/local</value>

</property>

<name>yarn.resourcemanager.max-completed-applications</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.connect.retry-interval.ms</name>

</property>

</configuration>

修改mapred-site.xml

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

<name>mapreduce.jobtracker.system.dir</name>

<value>/export/servers/hadoop-2.7.5/data/system/jobtracker</value>

</property>

<name>mapreduce.map.memory.mb</name>

</property>

<!-- <property>

<name>mapreduce.map.java.opts</name>

</property> -->

<name>mapreduce.reduce.memory.mb</name>

</property>

<!-- <property>

<name>mapreduce.reduce.java.opts</name>

</property> -->

<name>mapreduce.task.io.sort.mb</name>

</property>

<!-- <property>

<name>mapreduce.jobtracker.handler.count</name>

</property>-->

<name>mapreduce.task.io.sort.factor</name>

</property>

<name>mapreduce.reduce.shuffle.parallelcopies</name>

</property>

<name>yarn.app.mapreduce.am.command-opts</name>

</property>

<name>yarn.app.mapreduce.am.resource.mb</name>

</property>

<name>mapreduce.cluster.local.dir</name>

<value>/export/servers/hadoop-2.7.5/data/system/local</value>

</property>

</configuration>

修改slaves

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim slaves

node01

node02

node03

修改hadoop-env.sh

第一台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim hadoop-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_181

集群启动过程

将第一台机器的安装包发送到其余机器上

第一台机器执行如下命令：

cd /export/servers

scp -r hadoop-2.7.5/ node02:$PWD

scp -r hadoop-2.7.5/ node03:$PWD

三台机器上共同建立目录

三台机器执行如下命令

mkdir -p /export/servers/hadoop-2.7.5/data/dfs/nn/name

mkdir -p /export/servers/hadoop-2.7.5/data/dfs/nn/edits

mkdir -p /export/servers/hadoop-2.7.5/data/dfs/nn/name

mkdir -p /export/servers/hadoop-2.7.5/data/dfs/nn/edits

更改node02的rm2

第二台机器执行如下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop

vim yarn-site.xml

<!--在node3上配置rm1,在node2上配置rm2,注意：通常都喜欢把配置好的文件远程复制到其它机器上，

但这个在YARN的另外一个机器上必定要修改，其余机器上不配置此项

注意咱们如今有两个resourceManager 第三台是rm1 第二台是rm2

这个配置必定要记得去node02上面改好

-->

<name>yarn.resourcemanager.ha.id</name>

<description>If we want to launch more than one RM in single node, we need this configuration</description>

</property>

启动HDFS过程

node01机器执行如下命令

cd /export/servers/hadoop-2.7.5

bin/hdfs zkfc -formatZK

sbin/hadoop-daemons.sh start journalnode

bin[a2] /hdfs namenode -format

bin/hdfs namenode -initializeSharedEdits -force

sbin/start-dfs.sh

node02上面执行

cd /export/servers/hadoop-2.7.5

bin/hdfs namenode -bootstrapStandby

sbin/hadoop-daemon.sh start namenode

启动yarn过程

node03上面执行

cd /export/servers/hadoop-2.7.5

sbin/start-yarn.sh

node02上执行

cd /export/servers/hadoop-2.7.5

sbin/start-yarn.sh

查看resourceManager状态

node03上面执行

cd /export/servers/hadoop-2.7.5

bin/yarn rmadmin -getServiceState rm1

node02上面执行

cd /export/servers/hadoop-2.7.5

bin/yarn rmadmin -getServiceState rm2

node03启动jobHistory

node03机器执行如下命令启动jobHistory

cd /export/servers/hadoop-2.7.5

sbin/mr-jobhistory-daemon.sh start historyserver

hdfs状态查看

node01机器查看hdfs状态

http://192.168.221.100:50070/dfshealth.html#tab-overview

node02机器查看hdfs状态

http://192.168.221.110:50070/dfshealth.html#tab-overview

yarn集群访问查看

http://node03:8088/cluster

历史任务浏览界面

页面访问：

http://192.168.221.120:19888/jobhistory

[a1]注意这个值，node03机器上面的配置为rm1，node02机器上的配置则为rm2，这个值两个机器上面配置不能同样

[a2]这个命令必定要慎重使用，只在集群搭建的时候使用一次，之后都不要使用了，一旦使用，集群上面全部的数据都没了