大数据2 Hadoop伪分布模式配置部署

时间 2019-11-06

标签数据 hadoop 分布模式配置部署栏目 Hadoop 繁體版

原文原文链接

Hadoop伪分布模式配置部署

1、实验环境说明

注意：本实验须要按照上一节单机模式部署后继续进行操做

1. 环境登陆

无需密码自动登陆，系统用户名 shiyanlouhtml

2. 环境介绍

本实验环境采用带桌面的 Ubuntu Linux 环境，实验中会用到桌面上的程序：前端

XfceTerminal：Linux 命令行终端，打开后会进入 Bash 环境，可使用 Linux 命令
Firefox：浏览器，能够用在须要前端界面的课程里，只须要打开环境里写的 HTML/JS 页面便可
GVim：很是好用的编辑器，最简单的用法能够参考课程 Vim 编辑器

3. 环境使用

使用Vim编辑器输入实验所需的代码，而后使用Xfce终端命令行环境进行编译运行，查看运行结果，运行后能够截图并分享本身的实验报告，实验报告中的数据能够真实有效证实您已经完成了实验。node

实验报告页面能够在“个人主页”中查看，其中含有每次实验的截图及笔记，以及每次实验的有效学习时间（指的是在实验桌面内操做的时间，若是没有操做，系统会记录为发呆时间）。这些都是您学习的真实性证实。linux

4. 参考文档

本实验参考下列文档内容制做：apache

2、Hadoop伪分布式模式配置

注意：本实验须要按照上一节单机模式部署后继续进行操做，所以您必须先完成上一节实验。

1. 相关配置文件修改

1).修改`core-site.xml`:

$ sudo gvim /usr/local/hadoop/etc/hadoop/core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
   </property>
</configuration>

经常使用配置项说明：vim

fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号)，集群里面的每一台机器都须要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才能够被使用。独立的客户端程序经过这个URI跟DataNode交互，以取得文件的块列表。
hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，不少路径都依赖它。若是hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在/tmp/hadoop-${user.name}这个路径中

更多说明请参考core-default.xml，包含配置文件全部配置项的说明和默认值。浏览器

2).修改`hdfs-site.xml`:

$ sudo gvim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

经常使用配置项说明：安全

dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用，它应该被设为3（这个数字并无上限，但更多的备份可能并无做用，并且会占用更多的空间）。少于三个的备份，可能会影响到数据的可靠性(系统故障时，也许会形成数据丢失)
dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要彻底相同，由于每台机器的环境极可能是不同的。但若是每台机器上的这个路径都是统一配置的话，会使工做变得简单一些。默认的状况下，它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的，由于它极可能会丢失掉一些数据。因此这个值最好仍是被覆盖。
dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效，DataNode并不须要使用到它。上面对于/temp类型的警告，一样也适用于这里。在实际应用中，它最好被覆盖掉。

更多说明请参考hdfs-default.xml，包含配置文件全部配置项的说明和默认值。数据结构

3).修改`mapred-site.xml`:

$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
$ sudo gvim /usr/local/hadoop/etc/hadoop/mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

经常使用配置项说明：编辑器

mapred.job.trackerJobTracker的主机（或者IP）和端口。

更多说明请参考mapred-default.xml，包含配置文件全部配置项的说明和默认值

4).修改`yarn-site.xml`:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

经常使用配置项说明：

yarn.nodemanager.aux-services经过该配置，用户能够自定义一些服务

更多说明请参考yarn-default.xml，包含配置文件全部配置项的说明和默认值

5). 修改 `hadoop-env.sh`:

$ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

修改 JAVA_HOME 以下：

这样简单的伪分布式模式就配置好了。

3、格式化HDFS文件系统

在使用hadoop前，必须格式化一个全新的HDFS安装，经过建立存储目录和NameNode持久化数据结构的初始版本，格式化过程建立了一个空的文件系统。因为NameNode管理文件系统的元数据，而DataNode能够动态的加入或离开集群，所以这个格式化过程并不涉及DataNode。同理，用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode能够在文件系统格式化以后的很长一段时间内按需增长。

1.先切换到hadoop帐户，按照提示输入帐户密码

$ su hadoop

2.格式化HDFS文件系统

$ hadoop namenode -format

会输出以下信息，则表格式化HDFS成功：

DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = [你的主机名]/127.0.0.1
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 2.4.1
...
...
INFO util.ExitUtil: Exiting with status 0
INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]/127.0.0.1
************************************************************/

4、Hadoop集群启动

1.启动hdfs守护进程，分别启动NameNode和DataNode

$ hadoop-daemon.sh start namenode
$ hadoop-daemon.sh start datanode

或者一次启动

$ start-dfs.sh

输出以下（能够看出分别启动了namenode, datanode, secondarynamenode，由于咱们没有配置secondarynamenode，因此地址为0.0.0.0）：

Starting namenodes on []
hadoop@localhost's password:
localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.out
hadoop@localhost's password:
localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.out
localhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
localhost: It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
Starting secondary namenodes [0.0.0.0]
hadoop@0.0.0.0's password:
0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out

2.启动yarn,使用以下命令启ResourceManager和NodeManager:

$ yarn-daemon.sh start resourcemanager
$ yarn-daemon.sh start nodemanager

或者一次启动：

$ start-yarn.sh

3.检查是否运行成功

打开浏览器

输入：http://localhost:8088进入ResourceManager管理页面
输入：http://localhost:50070进入HDFS页面

可能出现的问题及调试方法：

启动伪分布后，若是活跃节点显示为零，说明伪分布没有真正的启动。缘由是有的时候数据结构出现问题会形成没法启动datanode。若是使用hadoop namenode -format从新格式化仍然没法正常启动，缘由是/tmp中的文件没有清除，则须要先清除/tmp/hadoop/*再执行格式化，便可解决hadoop datanode没法启动的问题。具体步骤以下所示：

# 删除hadoop:/tmp
$ hadoop fs -rmr /tmp
# 中止hadoop
$ stop-all.sh
# 删除/tmp/hadoop*
$ rm -rf /tmp/hadoop*
# 格式化
$ hadoop namenode -format
# 启动hadoop
$ start-all.sh

6、测试验证

测试验证仍是使用上一节的 WordCount。

不一样的是，此次是伪分布模式，使用到了 hdfs，所以咱们须要把文件拷贝到 hdfs 上去。

首先建立相关文件夹（要一步一步的建立）：

$ hadoop dfs -mkdir /user
$ hadoop dfs -mkdir /user/hadoop
$ hadoop dfs -mkdir /user/hadoop/input

1.建立输入的数据，采用/etc/protocols文件做为测试

先将文件拷贝到 hdfs 上：

$ hadoop dfs -put /etc/protocols /user/hadoop/input

2.执行Hadoop WordCount应用（词频统计）

# 若是存在上一次测试生成的output，因为hadoop的安全机制，直接运行可能会报错，因此请手动删除上一次生成的output文件夹
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount input output

执行过程截图（部分）：

3.查看生成的单词统计数据

$ hadoop dfs -cat /user/hadoop/output/*

7、关闭服务

输入命令

$ hadoop-daemon.sh stop namenode
$ hadoop-daemon.sh stop datanode
$ yarn-daemon.sh stop resourcemanager
$ yarn-daemon.sh stop nodemanager

或者

$ stop-dfs.sh
$ stop-yarn.sh

最后一步：点击屏幕上方的“实验截图”将上述命令执行后的截图保存并分享给朋友们吧，这是你学习Hadoop安装的证实。

8、小结

本实验讲解如何在单机模式下继续部署Hadoop为伪分布模式。

9、思考题

伪分布模式和单机模式配置上的区别主要是哪些？是否能够推论出如何部署真实的分布式Hadoop环境？