Spark Standalone集群模式搭建

时间 2020-05-08

标签 spark standalone 集群模式搭建栏目 Spark 繁體版

原文原文链接

Standalone集群模式html

实验环境java

·操做机：Windows 7linux

·目标机：3个节点，配置以下：shell

实验工具apache

·Web浏览器：经常使用的有谷歌浏览器，火狐浏览器等浏览器

·Xshell6：是一个强大的安全终端模拟软件，它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。缓存

·Xftp6：是一个功能强大的SFTP、FTP 文件传输软件。安全

实验内容服务器

Standalone是Spark自带的资源管理器，独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其余资源管理系统。oracle

本实验经过真实的集群环境进行spark集群的搭建。

实验步骤

1.设置三台机子间的免密登录

（1）经过xshell进入master主节点设置到master、slave1和slave2的免密登录

cd ~/.ssh

ssh-keygen –t rsa

这里要回车几下，会在当前目录生成两个文件，一个公钥一个私钥

（2）将公钥拷贝到其它机器上，实现免密码登陆

ssh-copy-id master

ssh-copy-id slave1

ssh-copy-id slave2

这样会在slave1 的~/.ssh/目录下生成一个authorized_keys 就能够实现master免登陆到3个节点,以下：

ssh slave2

（3）在另外两台子节点上重复此(1)(2)操做，使三台服务器间彼此免密登录。

安装JDK

（1）在/opt/下建立soft-install文件夹来存放安装的软件：mkdir /opt/soft-install

（2）建立soft目录来安装软件：mkdir /opt/soft

（3）Jdk下载地址：

https://download.oracle.com/otn-pub/java/jdk/8u201-b09/42970487e3af4f5aa5bca3f542482c60/jdk-8u201-linux-x64.tar.gz

（4）使用xftp6将压缩包传到服务器

（5）将jdk解压到/opt/soft/目录下：

tar -zxvf jdk-8u201-linux-x64.tar.gz -C /opt/soft/

（6）修改环境变量

sudo vi /etc/profile

（7）在文件最后下添加：

export JAVA_HOME=/opt/soft/jdk1.8.0\_201
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

（8）刷新配置文件：source /etc/profile

（9）将java同步到slave1和slave2

rsync –av /opt/soft/jdk1.8.0_201/ slave1:/opt/soft/jdk1.8.0_201

rsync –av /opt/soft/jdk1.8.0_201/ slave2:/opt/soft/jdk1.8.0_201

（10）经过ssh到slave1和slave2进行配置java环境变量

ssh slave1

sudo vi /etc/profile

（11）在后面添加

export JAVA_HOME=/opt/soft/jdk1.8.0\_201
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

（12）source /etc/profile

（13）ssh slave2

sudo vi /etc/profile

重复(11)(12)

3.安装scala

（1）官网下载：https://www.scala-lang.org/download/2.11.12.html

（2）经过xftp发送到服务器

（3）解压到/opt/soft

tar -zxvf scala-2.11.12.tgz -C /opt/soft/

（4）修改环境变量

vi /etc/profile

（5）在最后添加：

（6）刷新配置文件

source /etc/profile

（7）检查是否安装完成

scala -version

4.安装spark

（1）经过官网下载spark

https://www.apache.org/dyn/closer.lua/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

（2）使用xftp发送到服务器

（3）将spark安装包解压到/opt/soft

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/soft/

（4）重命名spark根目录

mv /opt/soft/spark-2.4.0-bin-hadoop2.7/ /opt/soft/spark-2.4.0

（5）配置环境变量

vi /etc/profile

（6）最尾巴加入

export SPARK_HOME=/opt/soft/spark-2.4.0
export PATH=$PATH:$SPARK_HOME/bin

（7）刷新环境变量

source /etc/profile

5.配置spark

（1）首先咱们把缓存的文件spark-env.sh.template改成spark识别的文件spark-env.sh

cp spark-env.sh.template spark-env.sh

（2）修改spark-env.sh，在尾巴加入:

export JAVA_HOME=/opt/soft/jdk1.8.0\_201
export SCALA_HOME=/opt/soft/scala-2.11.12
export SPARK_MASTER_IP=master #本地的ip或主机名
export SPARK_WORKER_MEMORY=4g
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1

（3）把缓存的文件slaves.template改成spark识别的文件slaves

cp slaves.template slaves

vi slaves

（4）在最后面修改成：

6.将spark同步到slave1和slave2

使用rsync命令

rsync –av /opt/soft/spark-2.4.0/ slave1:/opt/soft/spark-2.4.0

rsync –av /opt/soft/spark-2.4.0/ slave2:/opt/soft/spark-2.4.0

7.启动spark

（1）cd /opt/soft/spark-2.4.0

（2）./sbin/start-all.sh

（3）经过jsp查看进程

master中：

slave1中：

slave2中：

能够看到新开启的Master和Worker两个进程

（4）成功打开Spark集群以后能够进入Spark的WebUI界面，能够经过（服务的ip地址：8080）进行访问

（5）打开Spark-shell

spark-shell

进入了spark-shell

（6）同时，由于shell在运行，能够经过浏览器（服务的ip地址：4040）进行访问