jdk1.8.0_161html
hadoop 2.7.3apache
scala 2.12.6浏览器
三台Ubuntu kylin 16.04 64位机器,名字分别为hadoop-master,hadoop-s1,hadoops2(事先三台机器都要安装好hadoop!!!必备条件!!!后面再也不讲述)bash
spark-2.1.1编辑器
三台机器分别下载spark和scala安装包分布式
scala : https://www.scala-lang.org/download/oop
spark: http://spark.apache.org/downloads.htmlspa
下载好了都放在了目录:/home/chenjun/Downloads下面,以下:scala
首先事先在三台机器上安装hadoop ,个人hadoop版本为2.7.3,而且按照彻底分布式安装,而且相关配置文件彻底正确配置,且安装完成后hadoop应当能正常启动,hadoop安装步骤在此不描述 ,如图code
master节点:hadoop-master (做为nameNode名称节点)
slave节点: hadoop-s1 , hadoop-s2 (做为dataNode)
首先在master机器上打开 /ect/profile文件
添加环境变量:
export SCALA_HOME=/home/chenjun/Downloads/scala-2.12.6 export PATH=$PATH:$SCALA_HOME/bin #spark Env export SPARK_HOME=/home/chenjun/Downloads/spark-2.1.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
退出vi编辑器,使环境变量设置当即生效
source /etc/profile
而后一样的,对两台slave节点的/etc/profile文件作一样的操做
上面步骤完成后,转到master机器,切换到$SPARK_HOME/conf/目录下,修改以下文件:
将spark-env.sh.template复制一份为spark-env.sh
#cp ./spark-env.sh.template ./spark-env.sh
打开spark-env.sh
在文件末尾部分,添加以下内容:
export JAVA_HOME=/home/chenjun/Downloads/jdk1.8.0_161 export SCALA_HOME=/home/chenjun/Downloads/scala-2.12.6 export SPARK_MASTER_IP=192.168.0.45 export SPARK_LOCAL_IP=192.168.0.45 export SPARK_WORKER_MEMORY=1g export HADOOP_CONF_DIR=/home/chenjun/Downloads/hadoop-2.7.3/etc/hadoop
添加完以后如图所示:
继续,将slaves.template 用cp命令复制为 slaves
#cp ./slaves.template ./slaves
打开slaves,在文件最后,添加以下内容:
hadoop-master hadoop-s1 hadoop-s2
修改好了以后如图所示:
在Master节点,用scp命令,把配置文件拷贝到另外两台机器上:
# scp -r $SPARK_HOME/conf/ chenjun@hadoop-s1:$SPARK_HOME/conf/ # scp -r $SPARK_HOME/conf/ chenjun@hadoop-s2:$SPARK_HOME/conf/
在此处有个特别注意的地方:
在此处有个特别注意的地方:
在此处有个特别注意的地方:
重要事情说三遍
拷贝到了hadoop-s1,hadoop-s2机器上以后必定要记得把spark-env.sh的“SPARK_LOCAL_IP”字段改成本机IP!!!!
export SPARK_LOCAL_IP=本机IP地址
$SPARK_HOME/sbin/start-all.sh
查看集群是否启动成功:
使用jps命令
Master在Hadoop进程的基础上新增了:
Master ,以下图:
Slave在Hadoop进程的基础上新增了:
Worker,以下图:
至此 安装完毕,浏览器访问一下master机器的IP地址8080端口