在在上一篇文章写给后端的Hadoop初级入门教程:Hadoop组成部分中咱们初略地叙述了Hadoop
的三个重要组成部分 Map - Reduce
, Yarn
, HDFS
。难道到此一切都结束了吗, no no no,好戏才刚刚开始,既然要学习Hadoop
,那么首先咱们要解决的就是运行环境的问题,毕竟我我的认为学习编程最好的方式应该边看书边敲键盘,若是仅仅看书云学习的话,理论性的东西还好,可是代码性质的内容若是不敲一遍的话就会一个致使很明显的问题,就是本身以为明明会了,写出来的程序却一直报错,总体学习效率是十分感人的。java
不废话,直接上东西。linux
首先,在学习hadoop
以前。你须要一个虚拟机,固然若是你刚好财力雄厚,也能够本身买个服务器,或者后期买一组服务器作个集群,这样学习起来就方便多了。git
由于考虑到咱们以后要搭建集群,可能要同时启动多台linux主机,这个时候虚拟机就是一个很是合适的选择,特别是对于咱们你们主要以学习为目的的人来讲。而后这就要求你的电脑配置可能要稍微好一点,以我本人为例,I5+8G配置的台式机,同时运行三台虚拟机仍是有点吃力的。程序员
建立一个新的用户,我这里是 hanshu
,并配置hanshu
用户具备root
权限。github
在/opt目录下建立两个文件夹,分别是module
和software
shell
sudo mkdir module
sudo mkdir software
复制代码
修改module
和software
文件夹全部者为hanshu
apache
sudo chown hanshu:hanshu module/ software/
复制代码
到此,咱们虚拟机的基本准备就已经算是完成了。编程
咱们本次选择使用的linux
发行版是centos7
系统,centos7
默认是带了java
环境的,但因为centos7
自带的openjdk
并无增长对java
监控命令jps
的支持。目前有两种方案能够解决这个问题,第一种是卸载原有的openjdk
进行重装,第二个是经过yum安装jdk
开发插件。vim
首先咱们查看咱们本机的Openjdk
版本:后端
rpm -qa | grep openjdk
复制代码
我这里是java 1.8
版本,而后执行yum命令安装咱们对应版本的jdk
开发插件:
yum install -y java-1.8.0-openjdk-devel
复制代码
第三步则是在咱们/etc/profile
文件添加咱们java
的环境变量,具体的操做我就不列出来了,最后我会把我/etc/profile
的内容贴出来供你们进行参考。
首先第一步是下载咱们的Hadoop
,我这里选用的Hadoop2.7.2
版本,我知道到这里不少小伙伴可能会问了:
Hadoop3.x
既然都已经出来了,那为啥不用3.x
呢,
这里我想说的是,咱们学会了一个版本作知识更新的成本是很低的,好比你掌握了java 1.6
,再去使用java 1.8
的时候,实际上是很快就能够过分完成的。并且以目前我了解到的状况来讲,目前企业使用的最多的版本仍是Hadoop2.x
版本,毕竟企业追求的是开发的稳定性,但将来Hadoop 3.x
版本必定会是一个趋势。
Hadoop
下载地址:
archive.apache.org/dist/hadoop…
使用Xshel
l或者其余的linux终端管理工具将咱们下载好的Hadoop
安装包上传至咱们上文建立好的/opt/software目录下。
解压该压缩包至/opt/module目录:
tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
复制代码
在这里我就不一一展现具体的过程了,无非是把目录添加至/etc/profile文件里面,我直接贴出来个人/etc/profile相关的配置文件信息,以下:
##JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk/jre/
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
复制代码
执行命令使配置生效:
source /etc/profile
复制代码
终端执行hadoop version
命令,查看hadoop
是否安装成功:
[hanshu@hadoop100 ~]$ hadoop version
Hadoop 2.7.2
复制代码
当出现hadoop
版本信息时,则表明咱们hadoop
运行环境已经配置成功了。
前面光想着解压了,也忘了点进去看看里面都有些啥,和java
同样,Hadoop
也有着清晰的目录结构用来堆放对应的内容,接下来咱们列几个重要目录简单地阐述一下它们的做用:
今天这篇文章,咱们简单地过了一遍Hadoop
基本运行环境的配置。由于不少操做实在是太过于基础,好比查看文件目录,配置环境变量,使用vim编辑器等等这些操做都应该是一个java程序员的基本操做,因此就没有作很是详细的叙述,固然,若是有不明白的同窗能够去谷歌或者百度查阅相关资料,总体配置成功仍是不复杂的。下一节呢,咱们将经过修改Hadoop
的配置文件,实现hadoop
伪分布式环境的搭建,等我周六考完试,后面更新频率大概会维持在两天一更这样的进度,比较立刻要放寒假了,随我好多年的笔记本跑不起来集群了。
很是感谢能读到这里的朋友,大家的支持和关注是我坚持高质量分享下去的动力。
相关代码已经上传至本人github。必定要点个star啊啊啊啊啊啊啊
万水千山老是情,给个star行不行
欢迎点赞,关注我,有你好果子吃(滑稽)