Spark 系列（二）—— Spark开发环境搭建

时间 2019-11-08

原文原文链接

1、安装Spark

1.1 下载并解压

官方下载地址：spark.apache.org/downloads.h… ，选择 Spark 版本和对应的 Hadoop 版本后再下载：html

解压安装包：java

# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
复制代码

1.2 配置环境变量

# vim /etc/profile
复制代码

添加环境变量：git

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH
复制代码

使得配置的环境变量当即生效：github

# source /etc/profile
复制代码

1.3 Local模式

Local 模式是最简单的一种运行方式，它采用单节点多线程方式运行，不用部署，开箱即用，适合平常测试开发。shell

# 启动spark-shell
spark-shell --master local[2]
复制代码

local：只启动一个工做线程；
local[k]：启动 k 个工做线程；
local[*]：启动跟 cpu 数目相同的工做线程数。

进入 spark-shell 后，程序已经自动建立好了上下文 SparkContext，等效于执行了下面的 Scala 代码：apache

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)
复制代码

2、词频统计案例

安装完成后能够先作一个简单的词频统计例子，感觉 spark 的魅力。准备一个词频统计的文件样本 wc.txt，内容以下：vim

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop
复制代码

在 scala 交互式命令行中执行以下 Scala 语句：bash

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect
复制代码

执行过程以下，能够看到已经输出了词频统计的结果：多线程

同时还能够经过 Web UI 查看做业的执行状况，访问端口为 4040：app

3、Scala开发环境配置

Spark 是基于 Scala 语言进行开发的，分别提供了基于 Scala、Java、Python 语言的 API，若是你想使用 Scala 语言进行开发，则须要搭建 Scala 语言的开发环境。

3.1 前置条件

Scala 的运行依赖于 JDK，因此须要你本机有安装对应版本的 JDK，最新的 Scala 2.12.x 须要 JDK 1.8+。

3.2 安装Scala插件

IDEA 默认不支持 Scala 语言的开发，须要经过插件进行扩展。打开 IDEA，依次点击 File => settings=> plugins 选项卡，搜索 Scala 插件 (以下图)。找到插件后进行安装，并重启 IDEA 使得安装生效。

3.3 建立Scala项目

在 IDEA 中依次点击 File => New => Project 选项卡，而后选择建立 Scala—IDEA 工程：

3.4 下载Scala SDK

1. 方式一

此时看到 Scala SDK 为空，依次点击 Create => Download ，选择所需的版本后，点击 OK 按钮进行下载，下载完成点击 Finish 进入工程。

2. 方式二

方式一是 Scala 官方安装指南里使用的方式，但下载速度一般比较慢，且这种安装下并无直接提供 Scala 命令行工具。因此我的推荐到官网下载安装包进行安装，下载地址：www.scala-lang.org/download/

这里个人系统是 Windows，下载 msi 版本的安装包后，一直点击下一步进行安装，安装完成后会自动配置好环境变量。

因为安装时已经自动配置好环境变量，因此 IDEA 会自动选择对应版本的 SDK。

3.5 建立Hello World

在工程 src 目录上右击 New => Scala class 建立 Hello.scala。输入代码以下，完成后点击运行按钮，成功运行则表明搭建成功。

3.6 切换Scala版本

在平常的开发中，因为对应软件（如 Spark）的版本切换，可能致使须要切换 Scala 的版本，则能够在 Project Structures 中的 Global Libraries 选项卡中进行切换。

3.7 可能出现的问题

在 IDEA 中有时候从新打开项目后，右击并不会出现新建 scala 文件的选项，或者在编写时没有 Scala 语法提示，此时能够先删除 Global Libraries 中配置好的 SDK，以后再从新添加：

另外在 IDEA 中以本地模式运行 Spark 项目是不须要在本机搭建 Spark 和 Hadoop 环境的。

更多大数据系列文章能够参见 GitHub 开源项目： 大数据入门指南