系统环境
Ubuntu16.0
安装版本
Spark2.4.5
Scala2.11.8
wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
tar -zxvf scala-2.11.8.tgz
mv scala-2.11.8 scala
export SCALA_HOME=/home/hadoop/scala
export PATH=$SCALA_HOME/bin
scala -version
下载
wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
解压
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz
mv spark-2.4.5-bin-hadoop2.7 spark
配置环境变量
export SPARK_HOME=/home/hadoop/spark
export PATH=$SPARK_HOME/bin
修改spark内置文件
spark-env.sh
cp spark-env.sh.template spark-env.sh
相关变量配置按照实际编写
export SCALA_HOME=/home/hadoop/Scala export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_HOME=/home/hadoop/spark export SPARK_MASTER_IP=master export SPARK_EXECUTOR_MEMORY=1G export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
–
slaves文件
cp slaves.template slaves
因为就一台主机,所以也用不着添加
等到后续建立集群可以添加其他节点
打开spark shell
$SPARK_HOME/bin/spark-shell
对文件计数
val textFile = sc.textFile("README.md")
这里的README.md是hadoop上的文件
textFile.count()
结果输出文件长度