Hadoop 安装(本地、伪分布、分布式模式)

本地模式

环境介绍

一共三台测试机java

master   192.168.4.91node

slave1   192.168.4.45linux

slave2   192.168.4.96web

 

操做系统配置

一、Centos7操做系统apache

二、防火墙,selinux都关闭(在学习的时候,基本都是关闭防火墙,生产环境,防火墙都是打开的,不只有Linux自带的主机防火墙,还有其余的物理防火墙)vim

***  如下操做须要root权限  *** (1) Centos7关闭防火墙命令    #systemctl stop firewalld    #systemctl disable firewalld Centos6关闭防火墙 #/etc/init.d/iptables stop #chkconfig iptables off (2) 关闭Selinux    #sed -i 's/enforcing/disabled/g' /etc/selinux/config 一般状况下,设置完selinux须要重启操做系统,若是不想重启,能够临时关闭selinux。    #setenforce 0 表示临时关闭selinux (3) 修改操做系统ulimit的限制(可使用ulimit -a参数看当前系统的ulimit限制值)    #echo "* - nofile 65535" >>  /etc/security/limits.conf 修改最大文件数。 #echo "* - nproc 65535" >> /etc/security/limits.d/20-nproc.conf 修改最大进程数 注意:修改完之后,若是想要生效,须要从新打开会话。 (4) 关闭ipv6    #echo "net.ipv6.conf.all.disable_ipv6 = 1" >> /etc/sysctl.conf #echo "net.ipv6.conf.default.disable_ipv6 = 1" >> /etc/sysctl.conf #sysctl -p (5)  修改/etc/hosts文件,添加主机名和ip的映射 (6) 建立管理集群的用户   #useradd -m -d /home/hadoop hadoop #passwd hadoop #修改密码 (7) 建立数据目录 #mkdir /data/hadoop #chown hadoop:hadoop /data/hadoop #su - hadoop #切换到hadoop用户 (8) 设置主机之间免密登陆 #ssh-keygen  -t rsa -N '' -f ~/.ssh/id_rsa (在每台机器执行) 拷贝分发秘钥

 

  

下载软件包

下载JDK:http://download.oracle.com/otn-pub/java/jdk/8u181-b13/96a7b8442fe848ef90c96a2fad6ed6d1/jdk-8u181-linux-x64.tar.gz浏览器

下载Hadoop:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz安全

若是想下载最新版的二进制包,到官网下载。bash

安装配置JDK和Hadoop

一、安装JDK以及配置环境变量服务器

$ tar zxvf jdk-8u181-linux-x64.tar.gz -C /data/hadoop $ cd /data/hadoop $ ln -s jdk1.8.0_181/ jdk $ vim ~/.bashrc 文件最后追加 export JAVA_HOME=/data1/hadoop/jdk export PATH=${JAVA_HOME}/bin:$PATH $source /etc/profile #让jdk生效 $java -version #查看jdk是否生效,若是输入以下,说明配置成功。 java version "1.8.0_181" Java(TM) SE Runtime Environment (build 1.8.0_181-b13) Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

二、安装Hadoop以及配置

解压
$ tar zxvf tar zxvf hadoop-2.9.2.tar.gz -C /data/hadoop/
$ cd /data/hadoop
$ ln -s hadoop-2.9.2/ hadoop

配置环境变量
$ vim ~/.bashrc,追加以下配置

export HADOOP_HOME=/data1/hadoop/hadoop/

export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

$ source ~/.bashrc

三、本地模式下,各个进程运行在一台机器上,占用的jvm进程数为1,在跑MapReduce时,从本地读取文件,输出到本地文件。

(1)、在本地系统建立一个文件

#cat test.txt

11 22 33

22 33 44

44 22 11

运行hadoop自带的MapReduce程序

$ hadoop jar /data/hadoop-2.9.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount test.txt test.out

这里能够看到job ID中有local字样,说明是运行在本地模式下的。

(2)查看输出的文件。在本地模式下,输出文件是在本地。

# ll test.out

输出目录中有_SUCCESS文件说明JOB运行成功;part-r-00000是输出结果文件,r说明是reduce产生的结果,若是是m的话,则是map阶段产生的。

若是要查看具体的信息:

# cat test.out/part-r-00000

 伪分布搭建

特色:伪分布模式下,多个进程运行在不一样的jvm内

如下配置只在master节点操做

Hadoop配置

一、配置hadoop-env.sh

$ cd /data/hadoop/hadoop/etc/hadoop/
$ echo "export JAVA_HOME=/data/hadoop/jdk" >> hadoop-env.sh

二、配置core-site.xml文件

在<configuration>下面添加 fs.defaultFS参数配置的是HDFS的地址。 <property>
<!-- hdfs 地址 -->
<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>

<!-- 指定hadoop临时目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop/hadoop/tmp</value>
</property> hadoop.tmp.dir 是hdfs文件系统产生数据所存放的临时目录 建立目录: $ mkdir /data/hadoop/hadoop/tmp

三、配置hdfs-site.xml文件

在<configuration>下面添加 <property>
<name>dfs.replication</name> #这里指定hdfs产生数据时备份的机器数量,因为只有一台机器,因此为1. <value>1</value>
</property>

<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/hadoop/name</value> #指定namenode数据存放的目录 </property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/hadoop/data</value> #指定datanode数据存放的目录 </property> $ mkdir /data/hadoop/hadoop/name $ mkdir /data/hadoop/hadoop/data

 

四、接下来格式化hdfs

$ hadoop namenode -format

格式化是对HDFS这个分布式文件系统中的DataNode进行分块,统计全部分块后的初始元数据的存储在NameNode中。

格式化后,查看core-site.xml里hadoop.tmp.dir(本例是/data/hadoop/hadoop/目录)指定的目录下是否有了dfs目录,若是有,说明格式化成功。

 $ ll /data/hadoop/hadoop/name/current,如下图片可能目录不正确,我查看的是之前安装的集群信息

 fsimage_XXX 是namenode元数据存满之后持久化到磁盘的文件。

fsimage*.md5 是校验文件,校验fsimage的完整性。

seen_txid 是hadoop的版本

$ cat VERSION

namespaceID=271252846            #namenode的惟一id
clusterID=CID-97e864b1-262d-4ce0-93d9-9dd96953ecc5          #集群id
cTime=1533545685716
storageType=NAME_NODE             #存储类型
blockpoolID=BP-1051333686-192.168.4.91-1533545685716
layoutVersion=-63

固然,NameNode和DataNode的集群ID应该一致,代表这是一个集群,datenode的id能够到/data/hadoop/hadoop/data 这个目录下查看。

♥   启动namenode、datanode、SecondaryNameNode

$ hadoop-daemon.sh start namenode $ hadoop-daemon.sh start datanode $ hadoop-daemon.sh start  secondarynamenode

 

使用jps命令查看是否启动成功

$ jps

3022 NameNode

10578 Jps

2099 DateNode

12768 SecondaryNameNode

♥ hdfs分布式文件系统测试

在hdfs上建立目录:

$ hadoop fs -mkdir /test

查看目录:

上传本地文件到hdfs:

$ ./bin/hadoop fs -put wc.input /test

 

 从hdfs分布式文件系统上面下载文件到本地系统

$ ./bin/hadoop fs -get /test/wc.put

五、配置 mapred-site.xml

在 <configuration>下面添加

<!-- 指定mr运行在yarn框架上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

 

六、配置yarn.site.xml

在 <configuration>下面添加

<property>
<name>yarn.nodemanager.aux-services</name> #yarn默认混洗方式 <value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.resourcemanager.hostname</name> #指定resourcemanager的主机名称 <value>master</value>
</property>

 

♥启动resourcemanager

${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager

♥启动nodemanager

${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager

使用jps查看是否启动成功,若是有 resourcemanager  nodemanager 则说明成功。

♥  查看yarn的外部界面,

若是你要在Windows里面经过主机名去访问Linux里面的主机,那么你须要在Windows的hosts主机里面添加Linux主机名和其IP地址的映射关系。

这样才能正常从Windows浏览器经过主机名访问Linux,固然,你直接输入IP地址就不须要这一步了。

有时候你在修改Windows 下的/etc/hosts完成之后,保存时提示没有权限,该怎么作呢:

如图:hosts文件右键——> 安全----->指定users用户,在权限这里,把容许下面的都勾选上。

♥   容许MapReduce

在本地系统建立测试用的文件

#cat wc.put

上传到hdfs文件系统

# hadoop fs -put wc.put /

运行Wordcount MapReduce job

$ cd /data/hadoop/hadoop $ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /wc.input /wc.output

 

查看输出结果

$ hadoop fs -ls /wc.output/

有SUCCESS就表明这个job执行成功,这是一个空文件;part-r-00000既是输出结果,其中r表示是reduce阶段产生的结果,mapreduce程序执行时,能够没有reduce阶段,可是确定会有map阶段,若是没有reduce阶段这个地方有是-m-,一个reduce会产生一个part-r-开头的文件。

•   查看结果

#  hadoop fs -cat /wc.output/part-r-00000

其结果能够看出来是按照键值排好序的。

♥   如何中止hadoop?

(1)一个一个进程慢慢中止  

$./sbin/hadoop-daemon.sh stop namenode

$./sbin/hadoop-daemon.sh stop datenode

$ ./sbin/yarn-daemon.sh stop resourcemanager

$ ./sbin/yarn-daemon.sh stop nodemanager

(2) hadoop有一个脚本文件,能够直接中止集群,这个脚本文件分开来的话就是中止hdfs和yarn。启动整个集群也可使用 ./sbin/start-all.sh   

#./sbin/stop-all.sh   

♥   各个功能模块的介绍

(1) yarn

这是一个资源调度框架,在hadoop2.x中,主要就是管理整个集群资源的分配和调度,具体请查看  https://blog.csdn.net/liuwenbo0920/article/details/43304243

(2) hdfs 

hdfs分布式文件系统主要用来将大文件分块之后进行分布式存储数据的,突破了单台机器磁盘存储限制,这是一个相对独立的模块,可以为yarn、hbase等模块提供服务。

(3)MapReduce

MapReduce是一个计算框架,经过map、reduce阶段来分布式的对数据进行流处理,适用于对数据的流处理,对实时性要求高的应用不太适合,在hadoop1.0中,MapReduce是出于霸主级别,可是在hadoop2.0中,提供了一个更高效的处理引擎--spark。

♥   如何开启历史服务?

(1)   #./sbin/mr-jobhistory-daemon.sh start historyserver

开启之后经过web界面能够查看,点开下图的history,能够查看历史信息。

历史服务器的端口是19888.

♥  若是想在web界面查看日志该如何作呢?那就是开启日志汇集,日志汇集是在yarn框架的,因此在配置的时候是在yarn.site.xml文件里面配置

(1)日志汇集介绍

MapReduce是在各个机器上运行的,在运行过程当中产生的日志存在于各个机器上,为了可以统一查看各个机器的运行日志,将日志集中存放在HDFS上,这个过程就是日志汇集。

(2)日志汇集默认是未开启的,经过配置yarn.site.xml来开启。

<property>
<name>yarn.log-aggregation-enable</name> # 是否开启日志汇集 <value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name> #日志保存时间,以秒为单位。 <value>106800</value>          
</property>

 

(3)配置完之后重启yarn进程

# stop-yarn.sh

# start-yarn.sh

(4)如今就能够去web界面查看map、reduce阶段产生的日志。

固然,在执行这一步的时候,是由于咱们上面刚刚跑过MapReduce程序,若是你没有跑MapReduce,则这个界面不会有这些信息。

若是是在彻底分布式或者ha彻底分布式集群里面,当配置完成之后,须要把配置文件拷贝到其余节点在从新启动yarn进程。

 

分布式模式

前提是前面的JDK在三台机器都已经安装好。

一、中止伪分布式模式下搭建的集群

$ stop-all.sh

二、删除伪分布式模式下生成的数据

$ rm -rf /data/hadoop/hadoop/name
$ rm -ff /data/hadoop/hadoop/data

三、修改/data/hadoop/hadoop/etc/hadoop/slaves,添加须要启动的datanode、nodemanagerjied

slave1 slave2

四、分发hadoop到其余机器

$ scp -r /data/hadoop/hadoop slave1:/data/hadoop
$ scp -r /data/hadoop/hadoop slave2:/data/hadoop

 

五、启动集群

$ start-all.sh
相关文章
相关标签/搜索