Spark简介安装和简单例子

时间 2019-12-11

标签 spark 简介安装简单例子栏目 Spark 繁體版

原文原文链接

Spark简介安装和简单例子

Spark简介

Spark是一种快速、通用、可扩展的大数据分析引擎，目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。简单来讲Spark是内存迭代计算，每一个算子将计算结果保存在内存中，其余算子，读取这个结果，继续计算。java

Spark的四个特性：

1.快
Spark实现了高效的DAG执行引擎，能够经过基于内存来高效处理数据流。node

2.易用
Spark支持Java、Python和Scala的API，还支持超过80种高级算法，并且Spark支持交互式的Python和Scala的shell，能够很是方便地在这些shell中使用Spark集群来验证解决问题的方法。
依赖外部数据源hdfs、本地文件.kafka.flume.mysql.ELK）mysql

3.通用
Spark提供了统一的解决方案。Spark能够用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不一样类型的处理均可以在同一个应用中无缝使用。算法

4.兼容性
Spark能够很是方便地与其余的开源产品进行融合。好比，Spark可使用Hadoop的YARN和Apache Mesos做为它的资源管理和调度器，器，而且能够处理全部Hadoop支持的数据，包括HDFS、HBase和Cassandra等。它实现了Standalone做为其内置的资源管理和调度框架，使得全部人均可以很是容易地部署和使用Spark。sql

Spark的安装：

1.准备两台以上Linux服务器，安装好JDK1.7
2.在官网：http://spark.apache.org/ 中下载Spark安装包
http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz
上传解压安装包
上传spark-1.5.2-bin-hadoop2.6.tgz安装包到Linux上
解压安装包到指定位置
tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /usr/local
3.进入到Spark安装目录
cd /usr/local/spark-1.5.2-bin-hadoop2.6
进入conf目录并重命名并修改spark-env.sh.template文件
cd conf/
mv spark-env.sh.template spark-env.sh
vi spark-env.sh
在该配置文件中添加以下配置
export JAVA_HOME=/usr/java/jdk1.7.0_45
export SPARK_MASTER_IP=机器的ip
export SPARK_MASTER_PORT=7077
保存退出
重命名并修改slaves.template文件
mv slaves.template slaves
vi slaves
在该文件中添加子节点所在的位置（Worker节点）
子节点机器地址1
子节点机器地址2
子节点机器地址3
保存退出
将配置好的Spark拷贝到其余节点上
scp -r spark-1.5.2-bin-hadoop2.6/ 子节点机器地址1:/usr/local/
scp -r spark-1.5.2-bin-hadoop2.6/ 子节点机器地址2:/usr/local/
scp -r spark-1.5.2-bin-hadoop2.6/ 子节点机器地址3:/usr/local/shell

Spark集群配置完毕，目前是1个Master，3个Work，在master所在机器上启动Spark集群
/usr/local/spark-1.5.2-bin-hadoop2.6/sbin/start-all.shapache

启动后执行jps命令，主节点上有Master进程，其余子节点上有Work进行，登陆Spark管理界面查看集群状态（主节点）：http://master机器ip:8080/编程

到此为止，Spark集群安装完毕，可是有一个很大的问题，那就是Master节点存在单点故障，要解决此问题，就要借助zookeeper，而且启动至少两个Master节点来实现高可靠，配置方式比较简单：
Spark集群规划：node1，node2是Master；node3，node4，node5是Worker
安装配置zk集群，并启动zk集群
中止spark全部服务，修改配置文件spark-env.sh，在该配置文件中删掉SPARK_MASTER_IP并添加以下配置
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark"
（1）.在node1节点上修改slaves配置文件内容指定worker节点
（2）.在node1上执行sbin/start-all.sh脚本，而后在node2上执行sbin/start-master.sh启动第二个Master 。服务器

启动Spark Shell

spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户能够在该命令行下用scala编写spark程序。框架

/usr/local/spark-1.5.2-bin-hadoop2.6/bin/spark-shell
--master spark://node1:7077
--executor-memory 2g
--total-executor-cores 2

参数说明：
--master spark://node1:7077 指定Master的地址
--executor-memory 2g 指定每一个worker可用内存为2G
--total-executor-cores 2 指定整个集群使用的cup核数为2个

注意：
若是启动spark shell时没有指定master地址，可是也能够正常启动spark shell和执行spark shell中的程序，实际上是启动了spark的local模式，该模式仅在本机启动一个进程，没有与集群创建联系。

Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码若是须要用到，则直接应用sc便可

WordCount程序

1.首先启动hdfs
2.向hdfs上传一个文件到hdfs://master机器ip:9000/words.txt
3.在spark shell中用scala语言编写spark程序
sc.textFile("hdfs://node1:9000/words.txt").flatMap(_.split(" "))
.map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node1:9000/out")

4.使用hdfs命令查看结果
hdfs dfs -ls hdfs://master机器ip:9000/out/p*

说明： sc是SparkContext对象，该对象时提交spark程序的入口 textFile(hdfs:/master机器ip:9000/words.txt)是hdfs中读取数据 flatMap(_.split(" "))先map在压平 map((_,1))将单词和1构成元组 reduceByKey(_+_)按照key进行reduce，并将value累加 saveAsTextFile("hdfs://master机器ip:9000/out")将结果写入到hdfs中

1. Spark的Action算子的简单例子
2. Spark简介与安装
3. Spark-RDD简介以及算子实例
4. 简单介绍spark
5. spark简单介绍
6. Spark（二） -- Spark简单介绍
7. RDD简介，spark-shell，spark-submit提交任务简单示例
8. spark初始简单的例子
9. Spark Streaming一个简单例子
10. 一个简单的Spark ML的例子
更多相关文章...
• XLink 和 XPointer 简介 - XLink 和 XPointer 教程
• Scala 简介 - Scala教程
• Github 简明教程
• Composer 安装与使用