◆ Spark 由scala语言编写,提供多种语言接口,须要JVMhtml
◆ 官方为咱们提供了Spark 编译好的版本,能够没必要进行手动编译git
◆ Spark安装不难,配置须要注意,而且不必定须要Hadoop环境github
下载 shell
解压apache
tar zxvf spark-2.4.1-bin-hadoop2.7.tgz
复制代码
◆ 在配置前尽可能先阅读官方文档,避免直接从网上找配置教程bash
◆ 要为节点设 置好使用的内存,不然可能致使节点利用率低;session
◆ 注意spark中IP与端口号的配置,以避免UnknownHostException
app
bin/spark-shell
复制代码
◆ Spark shell是一个bash脚本,在./bin
目录下
◆ Spark shell 为咱们事先配置好了上下文(context) 和会话(session)
context实例
session实例
◆ Wordcount 词频统计,是大数据分析中最为基础的一种任务 英文分词较容易,直接分割空格便可。
◆ 实现思路 首先将文件中全部的单词提取出来,而后合并相同单词
添加spark jar包
全选jar包,先左键选中第一个,再拉到最后shift,再左键最后一个实现全选.
新建类
测试文件
`pwd`/`ls |grep L`
复制代码
编写函数
运行成功
打包
移除这些多余的jar包
构建
将jar包放到spark/bin目录下 使用 Spark-submit 运行