阿里云上安装Spark2.4.5+Scala2.11.8

系统环境
Ubuntu16.0

安装版本
Spark2.4.5
Scala2.11.8

Scala安装

  1. 下载
    wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
  2. 解压
    tar -zxvf scala-2.11.8.tgz
    mv scala-2.11.8 scala
  3. 配置环境变量
    export SCALA_HOME=/home/hadoop/scala
    export PATH=$SCALA_HOME/bin
  4. 查看安装结果
    scala -version

Spark安装

  1. 下载
    wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz

  2. 解压
    tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz
    mv spark-2.4.5-bin-hadoop2.7 spark

  3. 配置环境变量
    export SPARK_HOME=/home/hadoop/spark
    export PATH=$SPARK_HOME/bin

  4. 修改spark内置文件
    spark-env.sh
    cp spark-env.sh.template spark-env.sh
    相关变量配置按照实际编写
    export SCALA_HOME=/home/hadoop/Scala export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_HOME=/home/hadoop/spark export SPARK_MASTER_IP=master export SPARK_EXECUTOR_MEMORY=1G export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

    slaves文件
    cp slaves.template slaves
    因为就一台主机,所以也用不着添加
    等到后续建立集群可以添加其他节点

  5. 打开spark shell
    $SPARK_HOME/bin/spark-shell
    在这里插入图片描述

简单使用

对文件计数
val textFile = sc.textFile("README.md")
这里的README.md是hadoop上的文件
textFile.count()
结果输出文件长度
在这里插入图片描述