Ubuntu kylin 16.04 之 spark 2.1.1集群搭建详细教程

时间 2019-11-13

标签 ubuntu kylin 16.04 spark 2.1.1 集群搭建详细教程栏目 Ubuntu 繁體版

原文原文链接

1、环境：

jdk1.8.0_161html

hadoop 2.7.3apache

scala 2.12.6浏览器

三台Ubuntu kylin 16.04 64位机器，名字分别为hadoop-master,hadoop-s1,hadoops2(事先三台机器都要安装好hadoop！！！必备条件！！！后面再也不讲述)bash

spark-2.1.1编辑器

2、相关下载地址：

三台机器分别下载spark和scala安装包分布式

scala : https://www.scala-lang.org/download/oop

spark: http://spark.apache.org/downloads.htmlspa

下载好了都放在了目录:/home/chenjun/Downloads下面,以下：scala

3、其余环境说明：

首先事先在三台机器上安装hadoop ，个人hadoop版本为2.7.3，而且按照彻底分布式安装，而且相关配置文件彻底正确配置，且安装完成后hadoop应当能正常启动，hadoop安装步骤在此不描述 ,如图code

master节点：hadoop-master (做为nameNode名称节点)

slave节点: hadoop-s1 , hadoop-s2 (做为dataNode)

4、开始安装配置spark

首先在master机器上打开 /ect/profile文件

添加环境变量：

export SCALA_HOME=/home/chenjun/Downloads/scala-2.12.6
export PATH=$PATH:$SCALA_HOME/bin

#spark Env
export SPARK_HOME=/home/chenjun/Downloads/spark-2.1.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

退出vi编辑器，使环境变量设置当即生效

source /etc/profile

而后一样的，对两台slave节点的/etc/profile文件作一样的操做

上面步骤完成后，转到master机器，切换到$SPARK_HOME/conf/目录下，修改以下文件：

将spark-env.sh.template复制一份为spark-env.sh

#cp ./spark-env.sh.template ./spark-env.sh

打开spark-env.sh

在文件末尾部分，添加以下内容:

export JAVA_HOME=/home/chenjun/Downloads/jdk1.8.0_161
export SCALA_HOME=/home/chenjun/Downloads/scala-2.12.6
export SPARK_MASTER_IP=192.168.0.45
export SPARK_LOCAL_IP=192.168.0.45
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/home/chenjun/Downloads/hadoop-2.7.3/etc/hadoop

添加完以后如图所示：

继续，将slaves.template 用cp命令复制为 slaves

#cp ./slaves.template ./slaves

打开slaves，在文件最后，添加以下内容：

hadoop-master
hadoop-s1
hadoop-s2

修改好了以后如图所示：

在Master节点，用scp命令，把配置文件拷贝到另外两台机器上：

 # scp -r $SPARK_HOME/conf/ chenjun@hadoop-s1:$SPARK_HOME/conf/
 # scp -r $SPARK_HOME/conf/ chenjun@hadoop-s2:$SPARK_HOME/conf/

在此处有个特别注意的地方：

重要事情说三遍

拷贝到了hadoop-s1,hadoop-s2机器上以后必定要记得把spark-env.sh的“SPARK_LOCAL_IP”字段改成本机IP！！！！

export SPARK_LOCAL_IP=本机IP地址

5、启动spark集群

$SPARK_HOME/sbin/start-all.sh

查看集群是否启动成功：

使用jps命令

Master在Hadoop进程的基础上新增了：

Master　，以下图：

Slave在Hadoop进程的基础上新增了：

Worker，以下图：

至此安装完毕，浏览器访问一下master机器的IP地址8080端口