Hadoop环境搭建

Hadoop环境搭建


准备工作:安装Linux虚拟机

第一步:安装java JDK和Hadoop

解压文件

推荐从官网下载jdk1.8的jdk
先将jdk8u181.tar.gz上传至linux的某个目录,上传可以用Tools工具,也可用xshell工具。
输入以下命令:

tar -zxvf [压缩包名称] -C [解压后要存放的路径]

图示:

输入同样的命令解压Hadoop

配置环境变量

输入命令:

vi ~/.bash_profile

做如下配置:

分别输入命令:

echo $PATH
java -version
hadoop version

查看是否成功
vi编辑时可能会出错,如果不小心多删除了,可以按ESC键进入末行模式,按u撤销操作
在配置环境变量时,一定要小心,如果弄错了在更改时记得刷新文件,echo命令有时会有一些小问题,更新不及时,以输入java命令和hadoop命令为准

配置网络

输入命令:

vi /etc/sysconfig/network-scripts/ifcfg-eth0

配置静态网络,此处不给配置步骤,主机能ping通就可以了
输入命令:

vi /etc/hosts

作如下配置:

这里主机名没有记住百度搜索一下怎么配置主机名,这里不解释啦,实在不懂的可以加我微信:18434886024问我。
输入命令:

ping [主机名]

查看是否成功

修改hadoop配置文件

输入命令:

ssh-keygen -t rsa

四步回车
输入命令:

ssh-copy-id -i /root/.ssh/id_rsa.pub [主机名]

进入hadoop目录下etc/hadoop目录
输入命令

vi hadoop-env.sh


输入命令:

vi slaves

修改为主机名
输入命令:

vi core-site.xml

在configuration标签中添加:

<property>
    <name>hadoop.tmp.dir</name>
    <value>file:///usr/hadoop/hadoop-2.6.0/tmp</value>
</property>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost-one:9000</value>
</property>
<property>
    <name>fs.checkpoint.period</name>
    <value>3600</value>
</property>

输入命令:

vi hdfs-site.xml

在configuration标签中添加:

<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>
<property>
	<name>dfs.namenode.name.dir</name>
	<value>file:/usr/hadoop/hadoop-2.6.0/tmp/dfs/name</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>file:/usr/hadoop/hadoop-2.6.0/tmp/dfs/data</value>
</property>

输入:

cp mapred-site.xml.template mapred-site.xml

输入:

vi mapred-site.xml

在configuration标签中添加:

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

输入:

vi yarn-site.xml

在configuration标签中添加:

<property>
	 <name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<property>
	<name>yarn.resourcemanager.hostname</name>
	<!-- 此处修改主机名 -->
	<value>localhost-one</value>
</property>
<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>

注意修改此处(主机名):localhost-one

格式化

输入:

hadoop namenode -format

输入:

hadoop datanode -format

注意:格式化之前需要在检查一遍,尽量不要多次格式化,如果失败,需要删除tmp文件夹下的内容,在重新格式化
输入启动分布式文件系统命令:

start-dfs.sh

输入:jps 查看当前运行的程序
出现:

2807 DataNode
2728 NameNode
2968 SecondaryNameNode
3102 Jps

在google或其他浏览器中输入网址:http://192.168.0.111:50070 查看
注意:
每次更换网络需要配置:

vi /etc/hosts
vi /etc/sysconfig/network-scripts/ifcfg-etho
service network restart

出现问题解决办法:
输入jps时没有DataNode解决办法:
删除:Hadoop目录下:/tmp/dfs/data目录
在dfs目录下输入:

rm -rf data

然后重启(stop-dfs.shstart-dfs.sh)