hadoop配置-WIN10Linux子系统

时间 2019-12-13

标签 hadoop 配置 win10linux win linux 子系统栏目 Hadoop 繁體版

原文原文链接

hadoop专属用户建立html

$ sudo useradd -m hadoop -s /bin/bash
复制代码

设置密码：java

$ sudo passwd hadoop
复制代码

须要输入两次密码node

Enter new UNIX password:
Retype new UNIX password:
passwd: password updated successfully
复制代码

提高hadoop用户的权限为管理员（虽然增长了管理员权限，但后面有些地方仍是须要进入root用户进行操做）git

$ sudo adduser hadoop sudo
复制代码

切换到hadoop用户github

$ su hadoop
复制代码

执行以后shell

......
Get:28 http://archive.ubuntu.com/ubuntu bionic-backports/universe Translation-en [1604 B]
Fetched 11.9 MB in 5min 13s (37.9 kB/s)
Reading package lists... Done
复制代码

安装SSH并配置SSH无密码登陆网上是说Ubuntu已经自带了SSH client，还须要安装SSH serverapache

$ sudo apt-get install openssh-server
复制代码

手动启动sshd,重启WSL不会启动sshd:ubuntu

$ sudo service ssh restart
复制代码

获得vim

* Restarting OpenBSD Secure Shell server sshd
复制代码

查看是否重启成功浏览器

$ sudo service ssh status
复制代码

配置ssh开启自启

$ cd /etc/profile.d/
复制代码

建立ssh.sh文件

$ sudo vim ssh.sh
复制代码

写入:

sudo service ssh restart
复制代码

而后使用:wq保存文件（下同）这样就能够开机自动启动了

SSH设置和密钥生成 SSH设置须要在集群上执行不一样的操做，如启动，中止和分布式守护shell操做。进行身份验证不一样的Hadoop用户，须要一种用于Hadoop的用户提供的公钥/私钥对，并用不一样的用户共享。

$ su hadoop
复制代码

$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
复制代码

验证ssh

$ ssh localhost
复制代码

接下来能够再次尝试ssh localhost，如若无需再次输入密码，既成功。

JDK安装

$ sudo apt-get install openjdk-8-jdk
复制代码

设置JDK环境变量

$ cd /etc/profile.d/
复制代码

新建java.sh文件（须要输入当前密码）

$ sudo vim java.sh
复制代码

使source配置文件生效

$ source java.sh
复制代码

输出JAVA_HOME路径，查看配置是否生效

$ echo $JAVA_HOME
复制代码

输出如下内容说明配置已经生效

$ /usr/lib/jvm/java-8-openjdk-amd64/
复制代码

查看是否java安装成功

$ java -version
复制代码

显示如下信息说明安装成功

openjdk version "1.8.0_212"
OpenJDK Runtime Environment (build 1.8.0_212-8u212-b03-0ubuntu1.18.04.1-b03)
OpenJDK 64-Bit Server VM (build 25.212-b03, mixed mode)
复制代码

Hadoop 最新版:hadoop.apache.org/releases.ht…

$ cd /usr/local/
 $ wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz
复制代码

$ tar -vzxf hadoop-3.1.2.tar.gz # 解压
 $ mv hadoop-3.1.0 hadoop # 重命名
 $ cd hadoop
 $ ./bin/hadoop version
复制代码

你将会看到相似内容：

Hadoop 3.1.2
Source code repository https://github.com/apache/hadoop.git -r 1019dde65bcf12e05ef48ac71e84550d589e5d9a
Compiled by sunilg on 2019-01-29T01:39Z
Compiled with protoc 2.5.0
From source with checksum 64b8bdd4ca6e77cce75a93eb09ab2a9
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.2.jar
复制代码

$ cd /etc/profile.d/
$ sudo vim hadoop.sh
复制代码

输入如下内容:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
复制代码

应用全部更改到当前正在运行的系统

$ source /etc/profile
复制代码

配置core-site.xml

core-site.xml文件中包含，如：用于Hadoop实例的端口号，分配给文件系统，存储器限制用于存储数据存储器和读/写缓冲器的大小的信息。

$ sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml
复制代码

写入如下内容：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
复制代码

配置hadoop-env.sh 须要添加JAVA_HOME的路径

$ echo $JAVA_HOME
复制代码

$ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
复制代码

找到被注释掉的JAVA_HOME,填写上面输出的JAVA_HOME地址

export JAVA_HOME= /usr/lib/jvm/java-8-openjdk-amd64/
复制代码

配置hdfs-site.xml

hdfs-site.xml文件中包含，如：复制数据的值，NameNode的路径，本地文件系统，要存储Hadoop基础架构的Datanode路径的信息。

$ sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
复制代码

写入如下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>
复制代码

上面的文件，全部的属性值是用户定义的，能够根据本身的Hadoop的基础架构进行更改。

配置完成后，执行NameNode的格式化

$ /usr/local/hadoop/bin/hdfs namenode -format
复制代码

出现相似输出，说明名称节点设置成功

2019-05-17 16:34:23,646 INFO namenode.FSImageFormatProtobuf: Image file /usr/local/hadoop/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 of size 393 bytes saved in 0 seconds .
2019-05-17 16:34:23,685 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2019-05-17 16:34:23,700 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at ZERO.localdomain/127.0.1.1
************************************************************/
复制代码

下面的命令用来启动DFS。执行这个命令将启动Hadoop文件系统。

这里不能再root下运行，切换到 hadoop用户下运行

$ sudo /usr/local/hadoop/sbin/start-dfs.sh
复制代码

出现权限问题

Starting namenodes on [localhost]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [account.jetbrains.com]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
复制代码

运行 sudo chown -R hadoop:root /usr/local/hadoop命令，把hadoop目录全部用户改到hadoop上。

再次运行

# 注意：不能加sudo
$ /usr/local/hadoop/sbin/start-dfs.sh
复制代码

出现相似输出，说明安装成功：

Starting namenodes on [localhost]
localhost: namenode is running as process 16525.  Stop it first.
Starting datanodes
Starting secondary namenodes [account.jetbrains.com]
account.jetbrains.com: secondarynamenode is running as process 16988.  Stop it first.
2019-05-17 17:04:20,232 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
复制代码

至此，完成配置，可经过jps查看是否启动成功。

$ jps
复制代码

结果：

16988 SecondaryNameNode
16525 NameNode
18269 Jps
复制代码

访问Hadoop上的浏览器访问Hadoop的默认端口号为50070。使用如下网址，以获取Hadoop服务在浏览器中。

http://localhost:50070

若是发现没法访问,手动修改hdfs-site.xml，修改hdfs-site.xml

$ sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
复制代码

添加以下：

<property>
  <name>dfs.http.address</name>
  <value>127.0.0.1:9870</value>
</property>

复制代码

$ sudo vi /usr/local/hadoop/etc/hadoop/yarn-site.xml
复制代码

修改以下内容：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
复制代码

mapred-site.xml

此文件用于指定MapReduce框架以使用。默认状况下Hadoop包含yarn-site.xml模板。首先，它须要从mapred-site.xml复制模板到mapred-site.xml文件，使用下面的命令来。

$ sudo vim /usr/local/hadoop/etc/hadoop/mapred-site.xml
复制代码

提供一个默认的mapred-site.xml配置文件:mapred-default.xml 将默认的文件复制到mapred-site.xml中，并添加<configuration>和</configuration>标签之间添加如下属性

<configuration> <!--复制时不包含configuration标签-->
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
</configuration>
复制代码

获取启动，执行此命令将启动yarn守护进程。

$ /usr/local/hadoop/sbin/start-yarn.sh
复制代码

以后须要要启动Hadoop直接使用如下命令：

$ /usr/local/hadoop/sbin/start-all.sh
复制代码

原文：zero.osai.club/hadoop/win/…