ubuntu16+Hadoop2.7.3环境搭建(伪分布式)

Hadoop 环境的搭建

 

一、安装VMWare 虚拟机

                虚拟机版本VMware12,考虑到启动速度,装在固态硬盘中。

二、安装Linux

安装版本:ubuntu-16.04.1-server-amd64

此版本没有图形化界面,体积较小,只有命令行窗口

三、配置Linux

1、为了方便操作以及避免权限的相关问题,不用个人用户,使用root用户登录来进行操作 ——>root用户的解锁:修改root密码,方便登录

sudo  passwd root

2、关闭防火墙,卸载iptables

关闭防火墙:ufw disable

卸载iptables:apt-get  remove iptables

3、安装vim编辑器

apt-getinstall vim

 

四、安装SSH工具

为了方便不在Linux命令窗口中输入命令,转而在Windows工具中远程控制Linux——>配置SSH工具远程连接

1、在Linux中安装SSH服务

apt-getinstall openssh-server

2、启动SSH服务

/etc/init.d/sshstart

3、检测SSH进程是否已经开启

ps -e| grep sshd

4、配置root用户的默认登录【这样每次打开SSH工具就不用登陆了,自动登陆到root上】

vim  /etc/ssh/sshd_config

修改配置文件

#允许root用户登录,设置为yes

·PermitRootLogin: yes

保存,退出  :x

5、打开SSH客户端(这里使用SecureCRT)配置

·Linux下查询本机IP:ifconfig   查看inet addr

·SecureCRT中:Hostname输入查询到的IP,Username输入root

这里使用SecureCRT连接本地VMware是可能会遇到

“Connection timed out”,并且在Vmware的VM里面可以ping通宿主机,但是宿主机无法ping通VM。  解决方法:本地的网络设置里面的vmware的NAT网卡(Vmnet8)设置了手工填写地址和DNS,修改为自动获取即可。

 

 

五、配置FTP服务

为了方便Windows传输文件到Linux中,所以要配置FTP服务,使用客户端8UFTP

1、在Linux中安装FTP服务组件

apt-getinstall vsftpd

2、修改FTP用户的密码

passwdftp

3、设置FTP目录的控制权限为完全控制

chmod777   /srv/ftp    (文件都上传到这个目录里)

4、修改配置文件

vim  /etc/vsftpd.conf

修改:

anonymous_enable= NO             //不允许匿名登录,必须使用正确的用户名和密码登录

local_enable=YES                         //允许本地用户登录

write_enable=YES                          //用户具有写权限

chroot_local_user= YES              //将所有用户限制在主目录

chroot_list_enable= YES             //启动限制用户名单

chroot_list_file=/etc/vsftpd.chroot_list      //定义名单设置的目录

增加:

pam_service_name=vsftpd    //增加到定义名单设置目录之后

保存退出

 

5、在名单设置目录中增加用户名

先增加文件/etc/vsftpd.chroot_list,然后在文件里面写上用户名ftp

vim/etc/vsftpd.chroot_list

输入ftp

保存退出

6、修改pam配置文件

vim  /etc/pam.d/vsftpd

注释掉(添加#号):

# auth  required  pam_shells.so

保存退出

7、启动ftp服务

servicevsftpd start

(重新启动服务  service  vsftpd restart)

8、连接客户端8UFTP

新站点:

主机名:IP地址

用户名:ftp

密码:123110(Linux中配置的ftp账号密码)


六、在Linux中安装JDK

1、下载Linux版本的JDK安装包jdk-8u101-linux-x64.tar

2、把JDK开发包利用8UFTP工具上传到Linux中(目录/srv/ftp中)

3、将上传后的文件进行解压缩处理

tar  xzvf   JDK安装包文件名 -C   /usr/local

4、给的解压后的文件重命名

mv    JDK原名    jdk

5、配置JDK

·打开环境文件

vim  /etc/profile

·在最下面,输入

export JAVA_HOME=/usr/local/jdk

export PATH=$PATH:$JAVA_HOME/bin:

export CLASS_PATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

保存退出

6、让配置生效

source /etc/profile

7、测试 JDK

java  或 javac


七、配置SSH 免登录

1、设置虚拟网络

·进入Linux系统,在VM中选择编辑-虚拟网络配置,选择NAT模式

2、设置主机名称

vim /etc/hostname

 把localhost 修改为  hadoopm

vim /etc/hosts

 第一行增加

  本机ip地址   hadoopm

3、重启Linux  reboot

4、设置SSH免登陆

·删除根路径下.ssh 

rm -rf~/.ssh

·在hadoopm主机上生成sshkey

ssh-****** -t  rsa(一直回车,不输入)          //加密方式 rsa,可以选择其他方式

·将公钥信息保存在授权文件中

cat ~/.ssh/id_rsa.pub  >>~/.ssh/authorized_keys

5、测试免登陆(即登录ssh)

ssh [email protected]   变为远程连接

(exit退出链接)


八、安装hadoop(伪分布模式)——版本2.7.3

1、下载hadoop安装包

2、解压重命名hadoop安装包

tar  xzvf   hadoop安装包文件名 -C   /usr/local

mv  hadooop安装包名  hadoop

3、修改环境变量

vim  /etc/profile

export  HADOOP_HOME =/usr/local/hadoop

export  PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

   让配置生效

source /etc/profile

 

4、修改hadoop配置文件

       配置:“core-site.xml”:Hadoop的核心信息,包括临时目录、访问地址等;

       配置:“yarn-site.xml”:可以简单理解为配置相关job的处理;

       配置:“hdfs-site.xml”:可以确定文件的备份个数、数据文件夹的路径;

·vim  /usr/local/hadoop/etc/hadoop/hadoop-env.sh

更改JavaJDK路径

export  JAVA_HOME=/usr/local/jdk/

(1)core-site.xml

·vim  /usr/local/hadoop/etc/hadoop/core-site.xml

添加:

######################################################################################

##   配置hadoop临时文件,如果不配置,那么就会在hadoop的文件夹里面生产tmp文件("/usr/local/hadoop/tmp"),       

##   那么hadoop重启此文件会被清空,也就是说此时hadoop的环境就失效了。 创建hadoop_tmp文件

##   cd ~

##  mkdir  hadoop_tmp  

#######################################################################################

         <configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/root/hadoop_tmp</value>         

</property>

<property>

<name>fs.defaultFS</name>            

<value>hdfs://hadoopm:9000</value>

</property>

</configuration>

(2)hdfs-site.xml

       vim /usr/local/hadoop/conf/hdfs-site.xml

######################################################################################

##   “dfs.replication”:文件的副本数,一般情况下一个文件备份3份      

##   “dfs.namenode.name.dir”:定义名称节点路径

##   “dfs.namenode.data.dir”:定义数据文件节点路径

##   “dfs.datanode.data.dir”:名称节点的http访问路径

##   “dfs.namenode.secondary.http-address”:第二名称节点

##   “dfs.permissions”: 权限认证问题,关闭

#######################################################################################

       <configuration>

        <property>

               <name>dfs.replication</name>

                <value>1</value>

        </property>

 

           <property>

               <name>dfs.namenode.name.dir</name>

               <value>file:///usr/local/hadoop/dfs/name</value>

             </property>

 

           <property>

               <name>dfs.datanode.data.dir</name>

               <value>file:///usr/local/hadoop/dfs/data</value>

           </property>

   

              <property>

               <name>dfs.namenode.http-address</name>

               <value>hadoopm:50070</value>

           </property>

 

           <property>

               <name>dfs.namenode.secondary.http-address</name>

               <value>hadoopm:50090</value>

        </property>

 

        <property>

               <name>dfs.permissions</name>

               <value>false</value>

        </property>

 

       </configuration>

(3)yarn-site.xml

·vim  /usr/local/hadoop/conf/ yarn-site.xml

添加:

<configuration>

       <property>

       <name>yarn.nodemanager.aux-services</name>

       <value>mapreduce_shuffle</value>

    </property>

    <property>

       <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

       <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

       <name>yarn.resourcemanager.address</name>

        <value>master:8032</value>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.address</name>

        <value>master:8030</value>

    </property>

    <property>

       <name>yarn.resourcemanager.resource-tracker.address</name>

        <value>master:8031</value>

    </property>

    <property>

        <name>yarn.resourcemanager.admin.address</name>

        <value>master:8033</value>

    </property>

    <property>

       <name>yarn.resourcemanager.webapp.address</name>

        <value>master:8088</value>

    </property>

</configuration>·

 

(4)mapred-site.xml

       vim/usr/local/hadoop/conf/mapred-site.xml

添加:

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>hadoopm:9001</value>

</property>

</configuration>

 

5、由于hadoop属于分布式的开发环境,考虑到日后要进行集群的搭建,建议在“/usr/local/hadoop/etc/hadoop”目录下创建一个masters,里面写上主机名称(hadoopm,之前在hosts目录里面定义的主机名称),如果是单机环境,不写也没有关系。

       cd /usr/local/hadoop/etc/hadoop

       vim masters

       输入:hadoopm


6、修改从节点文件,增加hadoopm(此时主副节点为统一节点)

       cd /usr/local/hadoop/etc/hadoop

       vim slaves

       输入:hadoopm


7、上述hdfs-site.xml文件将所有的namenode、datanode保存路径设置在/usr/local/hadoop/dfs目录中,虽然可以自动创建,但是建议手动创建者两个文件夹

       cd /usr/local/hadoop/

       mkdir dfs  dfs/name  dfs/data

       如果hadoop出现问题需要重新配置时,请保证将这两个文件夹彻底清除掉,如果没有删除,则配置无效。


8、格式化文件系统namenode

hdfs   namenode - format

如果可以正确执行,则出现如下信息:INFO util.ExitUtil: Exiting with status 0;

如果出错,此处出现: INFOutil.ExitUtil: Exiting with status 1,很有可能是之前的几个配置文件复制、粘贴时出现了错误。


9、启动hadoop

       start-all.sh   每次启动hadoop都要输入


10、检测是否启动成功

jps 查看所有java进程(是否出现了5个重要进程,Jps进程忽略)

6116SecondaryNameNode

5940DataNode

6500Jps

5802NameNode

6270ResourceManager

6382NodeManager

或者登录  http://ip地址:50070    http://ip地址:50030

(如果想用hadoopm从windows登录,则需要在windows下增加映射文件,

C:\Windows\System32\drivers\etc hosts  追加 ip地址  hadoopm)

11、停止服务

              stop-all.sh          使用jps查看进程

       如果重启发现进程启动不完整的解决方案:http://www.linuxidc.com/Linux/2015-01/111891.htm

 


···配置完毕··