Spark 系列(二)—— Spark开发环境搭建

1、安装Spark

1.1 下载并解压

官方下载地址:spark.apache.org/downloads.h… ,选择 Spark 版本和对应的 Hadoop 版本后再下载:html

https://github.com/heibaiying

解压安装包:java

# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
复制代码

1.2 配置环境变量

# vim /etc/profile
复制代码

添加环境变量:git

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH
复制代码

使得配置的环境变量当即生效:github

# source /etc/profile
复制代码

1.3 Local模式

Local 模式是最简单的一种运行方式,它采用单节点多线程方式运行,不用部署,开箱即用,适合平常测试开发。shell

# 启动spark-shell
spark-shell --master local[2]
复制代码
  • local:只启动一个工做线程;
  • local[k]:启动 k 个工做线程;
  • local[*]:启动跟 cpu 数目相同的工做线程数。

https://github.com/heibaiying


进入 spark-shell 后,程序已经自动建立好了上下文 SparkContext,等效于执行了下面的 Scala 代码:apache

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)
复制代码

2、词频统计案例

安装完成后能够先作一个简单的词频统计例子,感觉 spark 的魅力。准备一个词频统计的文件样本 wc.txt,内容以下:vim

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop
复制代码

在 scala 交互式命令行中执行以下 Scala 语句:bash

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect
复制代码

执行过程以下,能够看到已经输出了词频统计的结果:多线程

https://github.com/heibaiying

同时还能够经过 Web UI 查看做业的执行状况,访问端口为 4040app

https://github.com/heibaiying

3、Scala开发环境配置

Spark 是基于 Scala 语言进行开发的,分别提供了基于 Scala、Java、Python 语言的 API,若是你想使用 Scala 语言进行开发,则须要搭建 Scala 语言的开发环境。

3.1 前置条件

Scala 的运行依赖于 JDK,因此须要你本机有安装对应版本的 JDK,最新的 Scala 2.12.x 须要 JDK 1.8+。

3.2 安装Scala插件

IDEA 默认不支持 Scala 语言的开发,须要经过插件进行扩展。打开 IDEA,依次点击 File => settings=> plugins 选项卡,搜索 Scala 插件 (以下图)。找到插件后进行安装,并重启 IDEA 使得安装生效。

https://github.com/heibaiying

3.3 建立Scala项目

在 IDEA 中依次点击 File => New => Project 选项卡,而后选择建立 Scala—IDEA 工程:

3.4 下载Scala SDK

1. 方式一

此时看到 Scala SDK 为空,依次点击 Create => Download ,选择所需的版本后,点击 OK 按钮进行下载,下载完成点击 Finish 进入工程。

2. 方式二

方式一是 Scala 官方安装指南里使用的方式,但下载速度一般比较慢,且这种安装下并无直接提供 Scala 命令行工具。因此我的推荐到官网下载安装包进行安装,下载地址:www.scala-lang.org/download/

这里个人系统是 Windows,下载 msi 版本的安装包后,一直点击下一步进行安装,安装完成后会自动配置好环境变量。

因为安装时已经自动配置好环境变量,因此 IDEA 会自动选择对应版本的 SDK。

3.5 建立Hello World

在工程 src 目录上右击 New => Scala class 建立 Hello.scala。输入代码以下,完成后点击运行按钮,成功运行则表明搭建成功。

3.6 切换Scala版本

在平常的开发中,因为对应软件(如 Spark)的版本切换,可能致使须要切换 Scala 的版本,则能够在 Project Structures 中的 Global Libraries 选项卡中进行切换。

3.7 可能出现的问题

在 IDEA 中有时候从新打开项目后,右击并不会出现新建 scala 文件的选项,或者在编写时没有 Scala 语法提示,此时能够先删除 Global Libraries 中配置好的 SDK,以后再从新添加:

https://github.com/heibaiying

另外在 IDEA 中以本地模式运行 Spark 项目是不须要在本机搭建 Spark 和 Hadoop 环境的。

更多大数据系列文章能够参见 GitHub 开源项目大数据入门指南

相关文章
相关标签/搜索