Hadoop伪分布搭建

时间 2019-11-24

标签 hadoop 分布搭建栏目 Hadoop 繁體版

原文原文链接

1.安装java

https://my.oschina.net/u/3132676/blog/804599html

2.下载hadoop压缩包

http://hadoop.apache.org/#Download+Hadoopjava

我下的是2.7.3node

3.建立hadoop帐户

sudo useradd hadoopweb

设置密码：apache

sudo passwd hadoop安全

为hadoop用户添加管理员权限：服务器

方法一：app

sudo adduser hadoop sudossh

方法二：webapp

打开/etc/sudoers文件，在root用户组中添加hadoop

sudo nano /etc/sudoers

使用hadoop用户登陆：

su hadoop

（注意：如下步骤均需在hadoop用户下完成！）

4.安装ssh，配置ssh免密码登陆

安装ssh前，先更新一下apt：

sudo apt-get update

安装ssh命令：

sudo apt-get install openssh-server

安装后，启动ssh登陆本机：

ssh localhost

做为一个安全通讯协议，使用ssh登陆时须要输入密码，而在hadoop集群中，须要将ssh改为无密码登陆，hadoop节点间才能正常通讯。

退出ssh登陆：

exit

生成私钥和公钥：

cd ~/.ssh/

ssh-keygen -t rsa

将公钥追加到authorized_keys文件中：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

再次使用ssh localhost登陆本机，此时便不在须要输入密码了。

5.配置伪分布环境

在安装Hadoop时，修改hadoop-env.sh时要将
export JAVA_HOME=${JAVA_HOME}
修改成具体目录export JAVA_HOME=/home/java_jre

须要在/hadoop/etc/hadoop目录下的core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml四个配置文件中添加配置，其中后两个是用于配置YARN的。

能够用Notepad++ 链接服务器修改配置文件

在core-site.xml中添加：

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value>

<description>Abase for other temporarydirectories.</description>

</property>

<name>fs.defaultFS</name>

</property>

在hdfs-site.xml文件中添加：

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file://home/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file://home/hadoop/dfs/data</value>

</property>

<name>dfs.namenode.secondary.http-address</name>

<value>Master:50090</value>

</property>

mapred-site.xml文件原先并不存在，需先将mapred-site.xml.template改名为mapred-site.xml：

sudo mv mapred-site.xml.template mapred-site.xml

而后在mapred-site.xml文件中添加：

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

在yarn-site.xml文件中添加：

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

</property>

6.启动hadoop的守护进程

启动dfs：

start-dfs.sh

启动后使用jps命令查看进程，将看到NameNode、DataNode、SecondaryNamenode三个进程。

启动YARN：

start-yarn.sh

启动后将增长ResourceManager、NodeManager两个进程。

也可使用start-all.sh命令启动所有进程（start-all.sh = start-dfs.sh + start-yarn.sh）

启动JobHistoryServer：

mr-jobhistory-daemon.sh start historyserver

由于mapred-site.xml文件中配置了JobHistoryServer，因此必须启动hadoop才能正常运行。

7.运行hadoop伪分布实例

在hdfs中建立输入文件夹，并将文件拷贝到文件夹中：

./bin/hdfs dfs -mkdir input

./bin/hdfs dfs -put ./etc/hadoop/*.xml input

运行mapreduce做业：

hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount input output

等待mapreduce做业运行结束，查看运行结果：

hdfs dfs -cat output/*