写给后端的Hadoop初级入门教程（三）：Hadoop运行环境搭建

时间 2019-12-16

原文原文链接

前言：

在在上一篇文章写给后端的Hadoop初级入门教程：Hadoop组成部分中咱们初略地叙述了Hadoop的三个重要组成部分 Map - Reduce ， Yarn ， HDFS 。难道到此一切都结束了吗， no no no，好戏才刚刚开始，既然要学习Hadoop，那么首先咱们要解决的就是运行环境的问题，毕竟我我的认为学习编程最好的方式应该边看书边敲键盘，若是仅仅看书云学习的话，理论性的东西还好，可是代码性质的内容若是不敲一遍的话就会一个致使很明显的问题，就是本身以为明明会了，写出来的程序却一直报错，总体学习效率是十分感人的。java

不废话，直接上东西。linux

虚拟机：

首先，在学习hadoop以前。你须要一个虚拟机，固然若是你刚好财力雄厚，也能够本身买个服务器，或者后期买一组服务器作个集群,这样学习起来就方便多了。git

由于考虑到咱们以后要搭建集群，可能要同时启动多台linux主机，这个时候虚拟机就是一个很是合适的选择，特别是对于咱们你们主要以学习为目的的人来讲。而后这就要求你的电脑配置可能要稍微好一点，以我本人为例，I5+8G配置的台式机，同时运行三台虚拟机仍是有点吃力的。程序员

建立一个新的用户，我这里是 hanshu,并配置hanshu用户具备root权限。github

在/opt目录下建立两个文件夹，分别是module和softwareshell

sudo mkdir module
sudo mkdir software
复制代码

修改module和software文件夹全部者为hanshuapache

sudo chown hanshu:hanshu module/ software/
复制代码

到此，咱们虚拟机的基本准备就已经算是完成了。编程

设置java环境：

咱们本次选择使用的linux发行版是centos7系统，centos7默认是带了java环境的，但因为centos7自带的openjdk并无增长对java监控命令jps的支持。目前有两种方案能够解决这个问题，第一种是卸载原有的openjdk进行重装，第二个是经过yum安装jdk开发插件。vim

首先咱们查看咱们本机的Openjdk版本：后端

rpm -qa | grep openjdk
复制代码

我这里是java 1.8版本，而后执行yum命令安装咱们对应版本的jdk开发插件：

yum install -y  java-1.8.0-openjdk-devel
复制代码

第三步则是在咱们/etc/profile文件添加咱们java的环境变量，具体的操做我就不列出来了，最后我会把我/etc/profile的内容贴出来供你们进行参考。

安装Hadoop:

首先第一步是下载咱们的Hadoop，我这里选用的Hadoop2.7.2版本，我知道到这里不少小伙伴可能会问了:

Hadoop3.x既然都已经出来了，那为啥不用3.x呢，

这里我想说的是，咱们学会了一个版本作知识更新的成本是很低的，好比你掌握了java 1.6 ，再去使用java 1.8的时候，实际上是很快就能够过分完成的。并且以目前我了解到的状况来讲，目前企业使用的最多的版本仍是Hadoop2.x版本，毕竟企业追求的是开发的稳定性，但将来Hadoop 3.x版本必定会是一个趋势。

Hadoop下载地址:

archive.apache.org/dist/hadoop…

使用Xshell或者其余的linux终端管理工具将咱们下载好的Hadoop安装包上传至咱们上文建立好的/opt/software目录下。

解压该压缩包至/opt/module目录:

tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
复制代码

将Hadoop添加到环境变量：

在这里我就不一一展现具体的过程了，无非是把目录添加至/etc/profile文件里面，我直接贴出来个人/etc/profile相关的配置文件信息，以下:

##JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk/jre/
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
 ##HADOOP_HOME 
export HADOOP_HOME=/opt/module/hadoop-2.7.2 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin
复制代码

执行命令使配置生效:

source /etc/profile
复制代码

终端执行hadoop version命令，查看hadoop是否安装成功:

[hanshu@hadoop100 ~]$ hadoop version
Hadoop 2.7.2
复制代码

当出现hadoop版本信息时，则表明咱们hadoop运行环境已经配置成功了。

Hadoop目录结构:

前面光想着解压了，也忘了点进去看看里面都有些啥，和java同样，Hadoop也有着清晰的目录结构用来堆放对应的内容，接下来咱们列几个重要目录简单地阐述一下它们的做用:

bin目录:存放对Hadoop相关服务（HDFS,YARN）进行操做的脚本.
etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件等信息。
lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）。
sbin目录：存放启动或中止Hadoop相关服务的脚本。
share目录：存放Hadoop的依赖jar包、文档、和官方案例，好比wordCount等。

下面开始技术总结:

今天这篇文章，咱们简单地过了一遍Hadoop基本运行环境的配置。由于不少操做实在是太过于基础，好比查看文件目录，配置环境变量，使用vim编辑器等等这些操做都应该是一个java程序员的基本操做，因此就没有作很是详细的叙述，固然，若是有不明白的同窗能够去谷歌或者百度查阅相关资料，总体配置成功仍是不复杂的。下一节呢，咱们将经过修改Hadoop的配置文件，实现hadoop伪分布式环境的搭建，等我周六考完试，后面更新频率大概会维持在两天一更这样的进度，比较立刻要放寒假了，随我好多年的笔记本跑不起来集群了。

很是感谢能读到这里的朋友，大家的支持和关注是我坚持高质量分享下去的动力。

相关代码已经上传至本人github。必定要点个star啊啊啊啊啊啊啊

万水千山老是情，给个star行不行

韩数的开发笔记

欢迎点赞，关注我，有你好果子吃（滑稽）