无需密码自动登陆,系统用户名 shiyanlouhtml
本实验环境采用带桌面的 Ubuntu Linux 环境,实验中会用到桌面上的程序:前端
使用Vim编辑器输入实验所需的代码,而后使用Xfce终端命令行环境进行编译运行,查看运行结果,运行后能够截图并分享本身的实验报告,实验报告中的数据能够真实有效证实您已经完成了实验。node
实验报告页面能够在“个人主页”中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操做的时间,若是没有操做,系统会记录为发呆时间)。这些都是您学习的真实性证实。linux
本实验参考下列文档内容制做:apache
core-site.xml
:$ sudo gvim /usr/local/hadoop/etc/hadoop/core-site.xml
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/tmp</value> </property> </configuration>
经常使用配置项说明:vim
fs.default.name
这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都须要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才能够被使用。独立的客户端程序经过这个URI跟DataNode交互,以取得文件的块列表。hadoop.tmp.dir
是hadoop文件系统依赖的基础配置,不少路径都依赖它。若是hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在/tmp/hadoop-${user.name}
这个路径中更多说明请参考core-default.xml,包含配置文件全部配置项的说明和默认值。浏览器
hdfs-site.xml
:$ sudo gvim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
经常使用配置项说明:安全
dfs.replication
它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并无上限,但更多的备份可能并无做用,并且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会形成数据丢失)dfs.data.dir
这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要彻底相同,由于每台机器的环境极可能是不同的。但若是每台机器上的这个路径都是统一配置的话,会使工做变得简单一些。默认的状况下,它的值为file://${hadoop.tmp.dir}/dfs/data
这个路径只能用于测试的目的,由于它极可能会丢失掉一些数据。因此这个值最好仍是被覆盖。dfs.name.dir
这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不须要使用到它。上面对于/temp类型的警告,一样也适用于这里。在实际应用中,它最好被覆盖掉。更多说明请参考hdfs-default.xml,包含配置文件全部配置项的说明和默认值。数据结构
mapred-site.xml
:$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml $ sudo gvim /usr/local/hadoop/etc/hadoop/mapred-site.xml
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
经常使用配置项说明:编辑器
mapred.job.tracker
JobTracker的主机(或者IP)和端口。更多说明请参考mapred-default.xml,包含配置文件全部配置项的说明和默认值
yarn-site.xml
:<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
经常使用配置项说明:
yarn.nodemanager.aux-services
经过该配置,用户能够自定义一些服务更多说明请参考yarn-default.xml,包含配置文件全部配置项的说明和默认值
hadoop-env.sh
:$ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
修改 JAVA_HOME 以下:
这样简单的伪分布式模式就配置好了。
在使用hadoop前,必须格式化一个全新的HDFS安装,经过建立存储目录和NameNode持久化数据结构的初始版本,格式化过程建立了一个空的文件系统。因为NameNode管理文件系统的元数据,而DataNode能够动态的加入或离开集群,所以这个格式化过程并不涉及DataNode。同理,用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode能够在文件系统格式化以后的很长一段时间内按需增长。
$ su hadoop
$ hadoop namenode -format
会输出以下信息,则表格式化HDFS成功:
DEPRECATED: Use of this script to execute hdfs command is deprecated. Instead use the hdfs command for it. INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = [你的主机名]/127.0.0.1 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 2.4.1 ... ... INFO util.ExitUtil: Exiting with status 0 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]/127.0.0.1 ************************************************************/
$ hadoop-daemon.sh start namenode $ hadoop-daemon.sh start datanode
或者一次启动
$ start-dfs.sh
输出以下(能够看出分别启动了namenode, datanode, secondarynamenode,由于咱们没有配置secondarynamenode,因此地址为0.0.0.0):
Starting namenodes on [] hadoop@localhost's password: localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.out hadoop@localhost's password: localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.out localhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now. localhost: It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'. Starting secondary namenodes [0.0.0.0] hadoop@0.0.0.0's password: 0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out
$ yarn-daemon.sh start resourcemanager $ yarn-daemon.sh start nodemanager
或者一次启动:
$ start-yarn.sh
打开浏览器
http://localhost:8088
进入ResourceManager管理页面http://localhost:50070
进入HDFS页面启动伪分布后,若是活跃节点显示为零,说明伪分布没有真正的启动。缘由是有的时候数据结构出现问题会形成没法启动datanode。若是使用hadoop namenode -format
从新格式化仍然没法正常启动,缘由是/tmp
中的文件没有清除,则须要先清除/tmp/hadoop/*
再执行格式化,便可解决hadoop datanode没法启动的问题。具体步骤以下所示:
# 删除hadoop:/tmp $ hadoop fs -rmr /tmp # 中止hadoop $ stop-all.sh # 删除/tmp/hadoop* $ rm -rf /tmp/hadoop* # 格式化 $ hadoop namenode -format # 启动hadoop $ start-all.sh
测试验证仍是使用上一节的 WordCount。
不一样的是,此次是伪分布模式,使用到了 hdfs,所以咱们须要把文件拷贝到 hdfs 上去。
首先建立相关文件夹(要一步一步的建立):
$ hadoop dfs -mkdir /user $ hadoop dfs -mkdir /user/hadoop $ hadoop dfs -mkdir /user/hadoop/input
先将文件拷贝到 hdfs 上:
$ hadoop dfs -put /etc/protocols /user/hadoop/input
# 若是存在上一次测试生成的output,因为hadoop的安全机制,直接运行可能会报错,因此请手动删除上一次生成的output文件夹 $ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount input output
执行过程截图(部分):
$ hadoop dfs -cat /user/hadoop/output/*
输入命令
$ hadoop-daemon.sh stop namenode $ hadoop-daemon.sh stop datanode $ yarn-daemon.sh stop resourcemanager $ yarn-daemon.sh stop nodemanager
或者
$ stop-dfs.sh $ stop-yarn.sh
最后一步:点击屏幕上方的“实验截图”将上述命令执行后的截图保存并分享给朋友们吧,这是你学习Hadoop安装的证实。
本实验讲解如何在单机模式下继续部署Hadoop为伪分布模式。
伪分布模式和单机模式配置上的区别主要是哪些?是否能够推论出如何部署真实的分布式Hadoop环境?