Ubuntu16下Hadoop安装

时间 2020-06-17 标签 ubuntu16 ubuntu hadoop 安装

1. 安装Ubuntu

2. 新装Ubuntu经常使用软件安装和系统设置

(1) 安装vimhtml

yum install vimjava

(2) 更改hostname为hadoop_masternode

sudo vim /etc/hostnamelinux

(3) 关闭防火墙web

sudo ufw disableubuntu

(4) 安装rz sz用于服务器文件与本地文件交互vim

apt-get install lrzszbash

(5) 安装 vm tools服务器

(6) 将 tar.gz 包复制到其余目录，解压后，网络

3. JAVA 环境安装配置

1 Java下载的jdk包放到root用户下的 /usr/local/java下

解压包tar xvf jdk1.8.*

2 配置JAVA环境变量

(1) Root用户权限下，在 /etc/profile.d 文件夹下建立java.sh

(2) 在java.sh里写入如下内容，保存后用 source java.sh 刷新配置文件是配置文件生效：

注：不少网上资料是说在 /etc/profile 文件里直接加如下设置，但比较新的Ubuntu版本里，系统会先读 profile 文件，而后由 profile 文件遍历 profile.d 文件夹下全部 *.sh 文件，这样就比把全部配置都写在一个 profile 文件里容易管理。

(3) 上一步是在root 下配置,接下来在 Hadoop 用户下将环境变量写入 ~/.bashrc 里，一样，保存后用 source ~/.bashrc刷新。

注：每一个用户根目录有独立的 ~/.bashrc 文件

若是还不成功，能够root帐号下试试如下命令：

执行赋权语句便可：
chmod 777 /etc/java/jdk1.8

备注：chmod是赋权限命令，777表示赋值全部权限对本用户，本组用户、其余用户。

设置完成后，能够用 java –version 测试是否成功。

4. 安装SSH

sudo apt-get install openssh-server

测试：ssh localhost

此时，要输入密码，还要按一次确认 yes

（1），避免输入密码

ssh-keygen -t rsa

一路回车，最后在 home/hadoop/.ssh 下有两个文件

运行：cat id_rsa.pub >> authorized_keys

这样就能够避免输入密码了。等克隆玩从机，使用一样的操做，而且将主机的 id_rsa.pub 追加到从机的 authorized_keys 中，这样，主机能够无密码访问从机了。

（2）避免须要输入yes

在文件 /etc/ssh/ssh_config 添加如下两行

StrictHostKeyChecking no

UserKnownHostsFile /dev/null

5. 安装rsync

sudo apt-get install rsync

由于以前更新了Ubuntu系统，已是最新的了

修改网卡

原先的ip信息

查看host信息

键入命令：

vi hosts

注释掉 127.0.1.1 ubuntu

新增一行 10.0.0.81 ubuntu

（这里必须改，不然后面会遇到链接拒绝问题）

6. hadoop 相关帐户权限设置

添加一个hadoop组

sudo addgroup hadoop

将当前用户hadoop 加入到Hadoop组

sudo usermod -a -G hadoop hadoop

将hadoop组加入到sudoer

sudo vi etc/sudoers

在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL

7. 安装Hadoop

下载Hadoop2.7.2
将解压文件放到 /usr/local下，

配置Hadoop

（1）修改 ~/.bashrc 文件

添加如下这些行到 ~/.bashrc 文件的末尾，内容以下所示：

#Set HADOOP_HOME

export HADOOP_HOME=/usr/local/hadoop

# Add bin/ directory of Hadoop to PATH

export PATH=$PATH:$HADOOP_HOME/bin

（2）配置关联HDFS

设置 JAVA_HOME 在文件 /usr/local/hadoop/etc/hadoop/hadoop-env.sh 中，使用如下行代替，即写上完整的 Java 安装路径。以下所示：

（3） core-site.xml 配置

在 $HADOOP_HOME/etc/hadoop/core-site.xml 文件中还有两个参数须要设置：

1. 'hadoop.tmp.dir' - 用于指定目录让 Hadoop 来存储其数据文件。

2. 'fs.default.name' - 指定默认的文件系统

为了设置两个参数，打开文件 core-site.xml

<configuration>

<property>

    <name>hadoop.tmp.dir</name>

    <value>/usr/local/hadoop/dfs/tmp</value>

    <description>Parent directory for other temporary directories.</description>

</property>

<property>

    <name>fs.defaultFS </name>

    <value>hdfs://master:9000</value>

    <description>The name of the default file system. </description>

</property>

 

</configuration>

如今建立一个目录，如上面配置 core-site.xml 中使用的目录：/usr/local/hadoop/dfs/tmp

sudo mkdir -p /usr/local/hadoop/dfs/tmp

授予权限目录 /app/hadoop/tmp，执行以下的命令：

sudo chown -R hadoop:hadoop /usr/local/hadoop/dfs/tmp

sudo chmod 750 /usr/local/hadoop/dfs/tmp

（4） Map Reduce 配置

在设置这个配置以前，咱们须要设置 HADOOP_HOME 的路径，执行如下命令：

sudo vi /etc/profile.d/hadoop.sh

而后输入如下一行，

export HADOOP_HOME=/usr/local/hadoop

再执行如下命令：

hadoop@ubuntu: sudo chmod +x /etc/profile.d/hadoop.sh

退出命令行终端再次进入，并输入如下命令：echo $HADOOP_HOME 以验证 hadoop 的路径：

hadoop@ubuntu: echo $HADOOP_HOME

/usr/local/hadoop

如今复制文件，执行如下命令：

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

使用vi 打开文件 mapred-site.xml

sudo vi $HADOOP_HOME/etc/hadoop/mapred-site.xml

添加如下的设置内容到标签<configuration> 和 </configuration> 中，以下图所示：

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>master:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>master:19888</value>

    </property>

</configuration>

hdfs-site.xml配置

打开 $HADOOP_HOME/etc/hadoop/hdfs-site.xml 文件以下：

sudo vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml

添加如下的设置内容到标签<configuration> 和 </configuration> 中，以下图所示：

<configuration>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>/usr/local/hadoop/dfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>/usr/local/hadoop/dfs/data</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>2</value>

    </property>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>master:9001</value>

    </property>

    <property>

    <name>dfs.webhdfs.enabled</name>

    <value>true</value>

    </property>

</configuration>

建立以上配置指定的目录并受权目录给用户，使用如下命令：

sudo mkdir -p /usr/local/hadoop/dfs/name sudo mkdir -p /usr/local/hadoop/dfs/data sudo chown -R hadoop:hadoop /usr/local/hadoop/dfs/name sudo chown -R hadoop:hadoop /usr/local/hadoop/dfs/data sudo chmod 750  /usr/local/hadoop/dfs/name sudo chmod 750  /usr/local/hadoop/dfs/data

（5）格式化HDFS

在第一使用 Hadoop 以前，须要先格式化 HDFS，使用下面的命令

hadoop namenode -format

输入：y，继往下..

（6）启动/中止 Hadoop 的单节点集群

$HADOOP_HOME/sbin/start-dfs.sh

$HADOOP_HOME/sbin/start-yarn.sh

如今使用 'jps' 工具/命令, 验证是否全部 Hadoop 相关的进程正在运行。

若是 Hadoop 成功启动，那么 jps 输出应显示： NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

中止 Hadoop 的单节点集群

$HADOOP_HOME/sbin/stop-dfs.sh $HADOOP_HOME/sbin/stop-yarn.sh

或

$HADOOP_HOME/sbin/stop-all.sh

上述步骤只是安装测试虚拟机使用，实际生产环境中，这几个配置文件都还要根据实际需求作不少调优设置。特别是cpu，内存，日志路径等等都须要调

8. 虚拟机克隆slave机

前三步是single模式的环境，接下来是作彻底分布式环境，添加从机。

*本来是直接在复制粘贴两份虚拟机做为slave1和slave2，但后来发现不能上网，会出现连不上网络的问题，用克隆出来的虚拟机能够避免这个问题。

1）克隆虚拟机

VMware ==》虚拟机 ==》管理 ==》克隆

克隆出 Hadoop_slave1 Hadoop_slave2

2）修改三个虚拟机的hostname

修改 etc/hostname ，分别将ubuntu 改成 master , slave1, slave2

*千万别设置成有下划线格式的如： hadoop_master ，会致使启动namenode时出错。

三虚拟机hosts里添加ip地址与hostname映射

经过命令 ifconfig 查看三个虚拟机的ip4 地址

而后在三个虚拟机里都添加三行ip hostname映射，以下：

添加完后，三个虚拟机就能够互相用hostname Ping通了，

master机ping slave2结果：

9. 配置SSH实现无密码登录

无密码登录，效果也就是在master上经过 ssh slave1或 ssh slave2 就能够登录到对方计算机上。并且不用输入密码。

3台虚拟机上，使用 ssh-keygen -t rsa 一路按回车就好了。

刚才都做甚了呢？主要是设置ssh的密钥和密钥的存放路径。路径为~/.ssh下。

打开~/.ssh 下面有三个文件，输入命令 ls -la

authorized_keys，已认证的keys

id_rsa，私钥

id_rsa.pub，公钥三个文件。

下面就是关键的地方了，（咱们要作ssh认证。进行下面操做前，能够先搜关于认证和加密区别以及各自的过程。）

　　（1）在master上将公钥放到authorized_keys 里。命令：sudo cat id_rsa.pub >> authorized_keys，在slave机上也一样操做，这一步使本机能够无密码操做。

　　（2）将master上的authorized_keys放到其余linux的~/.ssh目录下。

sudo scp authorized_keys hadoop@slave1:~/.ssh sudo scp authorized_keys hadoop@slave2:~/.ssh

sudo scp authorized_keys 远程主机用户名@远程主机名或ip:存放路径。

slave机上，一个master的，一个本机的

master机上，只有master的

（3）修改authorized_keys权限，命令：chmod 644 authorized_keys

（4）测试是否成功

ssh slave1输入用户名密码，而后重启master虚拟机，再次ssh slave1不用密码，直接进入系统。这就表示成功了。

10. 在master上配置slaves信息

配置/usr/local/hadoop/etc/hadoop目录下的slaves

删除默认的localhost，增长2从节点，

192.168.159.132

192.168.159.133

11. 正常安装后几个检查网址

http://192.168.159.129:50070/dfshealth.html#tab-datanode

http://192.168.159.130:8088/cluster/scheduler

12. 同步几个服务器的时间

集群上个服务器时间上可能不一样步，这会致使不少麻烦事，要同步集群时间。

（未装成功，先跳过，可是Hbase对时间同步有要求）

（1）安装ntpdate工具

sudo apt-get install ntpdate

（2）设置系统时间与网络时间同步

sudo ntpdate cn.pool.ntp.org

（3）将系统时间写入硬件时间

sudo hwclock --systohc

13.安装 lrzsz

安装lrzsz,使用rz或sz命令能够方便地上传和下载文件

14.安装zookeeper

下载地址：

http://pan.baidu.com/s/1qWyoFhU?errno=0&errmsg=Auth%20Login%20Sucess&&bduss=&ssnerror=0

执行：

解压后

sudo mv zookeeper-3.4.5.tar.gz /usr/local/zookeeper

cd /usr/local/zookeeper/conf

cp zoo_sample.cfg zoo.cfg

vim zoo.cfg

修改：dataDir=/usr/local/zookeeper/data

添加：

server.0=master:2888:3888

server.1=slave1:2888:3888

server.2=slave2:2888:3888

建立/usr/local/zookeeper/data 文件夹，并建立myid文件

并设置第一台server为0

echo 0 > myid

复制zookeeper目录至其他两台服务器中：

scp -r /usr/local/zookeeper slave1:/usr/local/

scp –r /usr/local/zookeeper slave2:/usr/local/

scp –r /usr/local/zookeeper slave3:/usr/local/

若是没权限，就先复制到 /tmp 文件夹，而后在 mv 到/usr/local

或者修改 /usr/local 权限，添加写权限

复制环境变量配置文件至其他两台服务器中：

　　scp /etc/profile.d/zookeeper.sh hadoop@slave1:/etc

　　scp /etc/profile.d/zookeeper.sh hadoop@slave2:/etc

　　scp /etc/profile.d/zookeeper.sh hadoop@slave3:/etc

在其他几台服务器中修改myid文件：设置为1和2，3；

启动ZooKeeper，分别在每一个节点中执行命令：zkServer.sh start

查看状态 /usr/local/zookeeper/bin/zkServer.sh status

（11）可使用如下命令来链接一个zk集群：

/usr/local/zookeeper/bin/zkCli.sh -server master:2181,slave1:2181,slave2:2181,slave3:2181