Spark学习之Spark Core

时间 2019-12-01

标签 spark 学习 core 栏目 Spark 繁體版

原文原文链接

Spark Core

1、什么是Spark？（官网：http://spark.apache.org）

1、什么是Spark？

个人翻译：Spark是一个针对大规模数据处理的快速通用引擎。html

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提升了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，容许用户将Spark部署在大量廉价硬件之上，造成集群。Spark获得了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于凤巢、大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了不少生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。es6

2、为何要学习Spark？

（*）Hadoop的MapReduce计算模型存在的问题：算法

学习过Hadoop的MapReduce的学员都知道，MapReduce的核心是Shuffle（洗牌）。在整个Shuffle的过程当中，至少会产生6次的I/O。下图是咱们在讲MapReduce的时候，画的Shuffle的过程。shell

中间结果输出：基于MapReduce的计算引擎一般会将中间结果输出到磁盘上，进行存储和容错。另外，当一些查询（如：Hive）翻译到MapReduce任务时，每每会产生多个Stage（阶段），而这些串联的Stage又依赖于底层文件系统（如HDFS）来存储每个Stage的输出结果，而I/O的效率每每较低，从而影响了MapReduce的运行速度。
apache

（*）Spark的最大特色：基于内存编程

Spark是MapReduce的替代方案，并且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。数组

3、Spark的特色：快、易用、通用、兼容性

（*）快缓存

与Hadoop的MapReduce相比，Spark基于内存的运算速度要快100倍以上，即便，Spark基于硬盘的运算也要快10倍。Spark实现了高效的DAG执行引擎，从而能够经过内存来高效处理数据流。
网络

（*）易用架构

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户能够快速构建不一样的应用。并且Spark支持交互式的Python和Scala的shell，能够很是方便地在这些shell中使用Spark集群来验证解决问题的方法。

（*）通用

Spark提供了统一的解决方案。Spark能够用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不一样类型的处理均可以在同一个应用中无缝使用。Spark统一的解决方案很是具备吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减小开发和维护的人力成本和部署平台的物力成本。

另外Spark还能够很好的融入Hadoop的体系结构中能够直接操做HDFS，并提供Hive on Spark、Pig on Spark的框架集成Hadoop。

（*）兼容性

Spark能够很是方便地与其余的开源产品进行融合。好比，Spark可使用Hadoop的YARN和Apache Mesos做为它的资源管理和调度器，器，而且能够处理全部Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，由于不须要作任何数据迁移就可使用Spark的强大处理能力。Spark也能够不依赖于第三方的资源管理和调度器，它实现了Standalone做为其内置的资源管理和调度框架，这样进一步下降了Spark的使用门槛，使得全部人均可以很是容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。

2、Spark的体系结构与安装部署

1、Spark集群的体系结构

官方的一张图：

我本身的一张图：

2、Spark的安装与部署

Spark的安装部署方式有如下几种模式：

　　Standalone

　　YARN

　　Mesos

　　Amazon EC2

（*）Spark Standalone伪分布的部署

l 配置文件：conf/spark-env.sh

　　export JAVA_HOME=/root/training/jdk1.7.0_75

　　export SPARK_MASTER_HOST=spark81

　　export SPARK_MASTER_PORT=7077

　　下面的能够不写，默认

　　export SPARK_WORKER_CORES=1

　　export SPARK_WORKER_MEMORY=1024m

l 配置文件：conf/slave

　　spark81

（*）Spark Standalone全分布的部署

l 配置文件：conf/spark-env.sh

　　export JAVA_HOME=/root/training/jdk1.7.0_75

　　export SPARK_MASTER_HOST=spark82

　　export SPARK_MASTER_PORT=7077

　　下面的能够不写，默认

　　export SPARK_WORKER_CORES=1

　　export SPARK_WORKER_MEMORY=1024m

l 配置文件：conf/slave

　　spark83

　　spark84

（*）启动Spark集群：start-all.sh(会和hadoop的start-all.sh有冲突，能够设置他们的环境变量为不一样的名字)

3、Spark HA的实现

（*）基于文件系统的单点恢复

主要用于开发或测试环境。当spark提供目录保存spark Application和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就能够经过从新启动Master进程（sbin/start-master.sh），恢复已运行的spark Application和worker的注册信息。

基于文件系统的单点恢复，主要是在spark-en.sh里对SPARK_DAEMON_JAVA_OPTS设置

配置参数	参考值
spark.deploy.recoveryMode	设置为FILESYSTEM开启单点恢复功能，默认值：NONE
spark.deploy.recoveryDirectory	Spark 保存恢复状态的目录

参考：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/root/training/spark-2.1.0-bin-hadoop2.7/recovery"

测试：

1、在spark82上启动Spark集群

2、在spark83上启动spark shell

MASTER=spark://spark82:7077 spark-shell

3、在spark82上中止master

stop-master.sh

4、观察spark83上的输出:

5、在spark82上重启master

start-master.sh

（*）基于Zookeeper的Standby Masters

ZooKeeper提供了一个Leader Election机制，利用这个机制能够保证虽然集群存在多个Master，可是只有一个是Active的，其余的都是Standby。当Active的Master出现故障时，另外的一个Standby Master会被选举出来。因为集群的信息，包括Worker， Driver和Application的信息都已经持久化到ZooKeeper，所以在切换的过程当中只会影响新Job的提交，对于正在进行的Job没有任何的影响。加入ZooKeeper的集群总体架构以下图所示。

配置参数	参考值
spark.deploy.recoveryMode	设置为ZOOKEEPER开启单点恢复功能，默认值：NONE
spark.deploy.zookeeper.url	ZooKeeper集群的地址
spark.deploy.zookeeper.dir	Spark信息在ZK中的保存目录，默认：/spark

l 参考：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata12:2181,bigdata13:2181,bigdata14:2181 -Dspark.deploy.zookeeper.dir=/spark"

l 另外：每一个节点上，须要将如下两行注释掉。

l ZooKeeper中保存的信息

3、执行Spark Demo程序

1、执行Spark Example程序

（*）示例程序：$SPARK_HOME/examples/jars/spark-examples_2.11-2.1.0.jar

（*）全部的示例程序：$EXAMPLE_HOME/examples/src/main

有Java、Scala等等等

（*）Demo：蒙特卡罗求PI

命令：

spark-submit --master spark://spark81:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.0.jar 100

2、使用Spark Shell

spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户能够在该命令行下用scala编写spark程序。

（*）启动Spark Shell：spark-shell

也可使用如下参数：

参数说明：

--master spark://spark81:7077 指定Master的地址

--executor-memory 2g 指定每一个worker可用内存为2G

--total-executor-cores 2 指定整个集群使用的cup核数为2个

例如：

spark-shell --master spark://spark81:7077 --executor-memory 2g --total-executor-cores 2

（*）注意：

若是启动spark shell时没有指定master地址，可是也能够正常启动spark shell和执行spark shell中的程序，实际上是启动了spark的local模式，该模式仅在本机启动一个进程，没有与集群创建联系。

请注意local模式和集群模式的日志区别：

（*）在Spark Shell中编写WordCount程序

程序以下：

sc.textFile("hdfs://192.168.88.111:9000/data/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://192.168.88.111:9000/output/spark/wc")

说明：

　　sc是SparkContext对象，该对象时提交spark程序的入口

　　textFile("hdfs://192.168.88.111:9000/data/data.txt")是hdfs中读取数据

　　flatMap(_.split(" "))先map在压平

　　map((_,1))将单词和1构成元组

　　reduceByKey(_+_)按照key进行reduce，并将value累加

　　saveAsTextFile("hdfs://192.168.88.111:9000/output/spark/wc")将结果写入到hdfs中

3、在IDEA中编写WordCount程序

（*）须要的jar包：$SPARK_HOME/jars/*.jar

（*）建立Scala Project，并建立Scala Object、或者Java Class

（*）书写源代码，并打成jar包，上传到Linux

==========================Scala版本==========================

（*）运行程序：

spark-submit --master spark://spark81:7077 --class mydemo.WordCount jars/wc.jar hdfs://192.168.88.111:9000/data/data.txt hdfs://192.168.88.111:9000/output/spark/wc1

====================Java版本（直接输出在屏幕）====================

（*）运行程序：

spark-submit --master spark://spark81:7077 --class mydemo.JavaWordCount jars/wc.jar hdfs://192.168.88.111:9000/data/data.txt

4、Spark运行机制及原理分析

1、WordCount执行的流程分析

须要看源码一步步看。

2、Spark提交任务的流程

3.Spark工做机制

5、Spark的算子

1、RDD基础

什么是RDD？

RDD（Resilient Distributed Dataset）叫作弹性分布式数据集，是Spark中最基本的数据抽象，它表明一个不可变、可分区、里面的元素可并行计算的集合。RDD具备数据流模型的特色：自动容错、位置感知性调度和可伸缩性。RDD容许用户在执行多个查询时显式地将工做集缓存在内存中，后续的查询可以重用工做集，这极大地提高了查询速度。

RDD的属性（源码中的一段话）

² 一组分片（Partition），即数据集的基本组成单位。对于RDD来讲，每一个分片都会被一个计算任务处理，并决定并行计算的粒度。用户能够在建立RDD时指定RDD的分片个数，若是没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。

² 一个计算每一个分区的函数。Spark中RDD的计算是以分片为单位的，每一个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不须要保存每次计算的结果。

² RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD，因此RDD之间就会造成相似于流水线同样的先后依赖关系。在部分分区数据丢失时，Spark能够经过这个依赖关系从新计算丢失的分区数据，而不是对RDD的全部分区进行从新计算。

² 一个Partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另一个是基于范围的RangePartitioner。只有对于于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD自己的分片数量，也决定了parent RDD Shuffle输出时的分片数量。

² 一个列表，存储存取每一个Partition的优先位置（preferred location）。对于一个HDFS文件来讲，这个列表保存的就是每一个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽量地将计算任务分配到其所要处理数据块的存储位置。

RDD的建立方式

经过外部的数据文件建立，如HDFS

val rdd1 = sc.textFile(“hdfs://192.168.88.111:9000/data/data.txt”)

经过sc.parallelize进行建立

val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))

RDD的类型：Transformation和Action

RDD 的基本原理

2、Transformation

RDD中的全部转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动做。只有当发生一个要求返回结果给Driver的动做时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。

转换	含义
map(func)	返回一个新的RDD，该RDD由每个输入元素通过func函数转换后组成
filter(func)	返回一个新的RDD，该RDD由通过func函数计算后返回值为true的输入元素组成
flatMap(func)	相似于map，可是每个输入元素能够被映射为0或多个输出元素（因此func应该返回一个序列，而不是单一元素）
mapPartitions(func)	相似于map，但独立地在RDD的每个分片上运行，所以在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)	相似于mapPartitions，但func带有一个整数参数表示分片的索引值，所以在类型为T的RDD上运行时，func的函数类型必须是(Int, Interator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)	根据fraction指定的比例对数据进行采样，能够选择是否使用随机数进行替换，seed用于指定随机数生成器种子
union(otherDataset)	对源RDD和参数RDD求并集后返回一个新的RDD
intersection(otherDataset)	对源RDD和参数RDD求交集后返回一个新的RDD
distinct([numTasks]))	对源RDD进行去重后返回一个新的RDD
groupByKey([numTasks])	在一个(K,V)的RDD上调用，返回一个(K, Iterator[V])的RDD
reduceByKey(func, [numTasks])	在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一块儿，与groupByKey相似，reduce任务的个数能够经过第二个可选的参数来设置
aggregateByKey(zeroValue)(seqOp,combOp,[numTasks])
sortByKey([ascending], [numTasks])	在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks])	与sortByKey相似，可是更灵活
join(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的全部元素对在一块儿的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable<V>,Iterable<W>))类型的RDD
cartesian(otherDataset)	笛卡尔积
pipe(command, [envVars])
coalesce(numPartitions)
repartition(numPartitions)
repartitionAndSortWithinPartitions(partitioner)

3、Action

动做	含义
reduce(func)	经过func函数汇集RDD中的全部元素，这个功能必须是课交换且可并联的
collect()	在驱动程序中，以数组的形式返回数据集的全部元素
count()	返回RDD的元素个数
first()	返回RDD的第一个元素（相似于take(1)）
take(n)	返回一个由数据集的前n个元素组成的数组
takeSample(withReplacement,num, [seed])	返回一个数组，该数组由从数据集中随机采样的num个元素组成，能够选择是否用随机数替换不足的部分，seed用于指定随机数生成器种子
takeOrdered(n, [ordering])
saveAsTextFile(path)	将数据集的元素以textfile的形式保存到HDFS文件系统或者其余支持的文件系统，对于每一个元素，Spark将会调用toString方法，将它装换为文件中的文本
saveAsSequenceFile(path)	将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下，可使HDFS或者其余Hadoop支持的文件系统。
saveAsObjectFile(path)
countByKey()	针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每个key对应的元素个数。
foreach(func)	在数据集的每个元素上，运行函数func进行更新。

4、RDD的缓存机制

RDD经过persist方法或cache方法能够将前面的计算结果缓存，可是并非这两个方法被调用时当即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。

经过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark的存储级别还有好多种，存储级别在object StorageLevel中定义的。

缓存有可能丢失，或者存储存储于内存的数据因为内存不足而被删除，RDD的缓存容错机制保证了即便缓存丢失也能保证计算的正确执行。经过基于RDD的一系列转换，丢失的数据会被重算，因为RDD的各个Partition是相对独立的，所以只须要计算丢失的部分便可，并不须要重算所有Partition。

Demo示例：

经过UI进行监控：

5、RDD的Checkpoint（检查点）机制：容错机制

检查点（本质是经过将RDD写入Disk作检查点）是为了经过lineage（血统）作容错的辅助，lineage过长会形成容错成本太高，这样就不如在中间阶段作检查点容错，若是以后有节点出现问题而丢失分区，从作检查点的RDD开始重作Lineage，就会减小开销。

设置checkpoint的目录，能够是本地的文件夹、也能够是HDFS。通常是在具备容错能力，高可靠的文件系统上(好比HDFS, S3等)设置一个检查点路径，用于保存检查点数据。

分别举例说明：

l 本地目录

注意：这种模式，须要将spark-shell运行在本地模式上

l HDFS的目录

注意：这种模式，须要将spark-shell运行在集群模式上

l 源码中的一段话

6、RDD的依赖关系和Spark任务中的Stage

l RDD的依赖关系

RDD和它依赖的父RDD（s）的关系有两种不一样的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。

窄依赖指的是每个父RDD的Partition最多被子RDD的一个Partition使用

总结：窄依赖咱们形象的比喻为独生子女

宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition

总结：窄依赖咱们形象的比喻为超生

l Spark任务中的Stage

DAG(Directed Acyclic Graph)叫作有向无环图，原始的RDD经过一系列的转换就就造成了DAG，根据RDD之间的依赖关系的不一样将DAG划分红不一样的Stage，对于窄依赖，partition的转换处理在Stage中完成计算。对于宽依赖，因为有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，所以宽依赖是划分Stage的依据。

7、RDD基础练习

练习1：

//经过并行化生成rdd

val rdd1 = sc.parallelize(List(5, 6, 4, 7, 3, 8, 2, 9, 1, 10))

//对rdd1里的每个元素乘2而后排序

val rdd2 = rdd1.map(_ * 2).sortBy(x => x, true)

//过滤出大于等于十的元素

val rdd3 = rdd2.filter(_ >= 10)

//将元素以数组的方式在客户端显示

rdd3.collect

练习2：

val rdd1 = sc.parallelize(Array("a b c", "d e f", "h i j"))

//将rdd1里面的每个元素先切分在压平

val rdd2 = rdd1.flatMap(_.split(' '))

rdd2.collect

练习3：

val rdd1 = sc.parallelize(List(5, 6, 4, 3))

val rdd2 = sc.parallelize(List(1, 2, 3, 4))

//求并集

val rdd3 = rdd1.union(rdd2)

//求交集

val rdd4 = rdd1.intersection(rdd2)

//去重

rdd3.distinct.collect

rdd4.collect

练习4：

val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))

//求jion

val rdd3 = rdd1.join(rdd2)

rdd3.collect

//求并集

val rdd4 = rdd1 union rdd2

//按key进行分组

rdd4.groupByKey

rdd4.collect

练习5：

val rdd1 = sc.parallelize(List(("tom", 1), ("tom", 2), ("jerry", 3), ("kitty", 2)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 1), ("shuke", 2)))

//cogroup

val rdd3 = rdd1.cogroup(rdd2)

//注意cogroup与groupByKey的区别

rdd3.collect

练习6：

val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5))

//reduce聚合

val rdd2 = rdd1.reduce(_ + _)

rdd2.collect

练习7：

val rdd1 = sc.parallelize(List(("tom", 1), ("jerry", 3), ("kitty", 2), ("shuke", 1)))

val rdd2 = sc.parallelize(List(("jerry", 2), ("tom", 3), ("shuke", 2), ("kitty", 5)))

val rdd3 = rdd1.union(rdd2)

//按key进行聚合

val rdd4 = rdd3.reduceByKey(_ + _)

rdd4.collect

//按value的降序排序

val rdd5 = rdd4.map(t => (t._2, t._1)).sortByKey(false).map(t => (t._2, t._1))

rdd5.collect

6、Spark RDD的高级算子

1、mapPartitionsWithIndex

把每一个partition中的分区号和对应的值拿出来

接收一个函数参数：

l 第一个参数：分区号

l 第二个参数：分区中的元素

示例：将每一个分区中的元素和分区号打印出来。

　　val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)

　　建立一个函数返回RDD中的每一个分区号和元素：

def func1(index:Int, iter:Iterator[Int]):Iterator[String] ={

iter.toList.map( x => "[PartID:" + index + ", value=" + x + "]" ).iterator

}

　　调用：rdd1.mapPartitionsWithIndex(func1).collect

2、aggregate

先对局部聚合，再对全局聚合

示例：val rdd1 = sc.parallelize(List(1,2,3,4,5), 2)

　　查看每一个分区中的元素：

　　将每一个分区中的最大值求和，注意：初始值是0；

　　若是初始值时候10，则结果为：30

　　若是是求和，注意：初始值是0：

若是初始值是10，则结果是：45

一个字符串的例子：

val rdd2 = sc.parallelize(List("a","b","c","d","e","f"),2)

修改一下刚才的查看分区元素的函数

def func2(index: Int, iter: Iterator[(String)]) : Iterator[String] = {

iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator

}

两个分区中的元素：

[partID:0, val: a], [partID:0, val: b], [partID:0, val: c],

[partID:1, val: d], [partID:1, val: e], [partID:1, val: f]

运行结果：

更复杂一点的例子

val rdd3 = sc.parallelize(List("12","23","345","4567"),2)

rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)

结果多是：”24”，也多是：”42”

val rdd4 = sc.parallelize(List("12","23","345",""),2)

rdd4.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是：”10”，也多是”01”，

缘由：注意有个初始值””，其长度0，而后0.toString变成字符串

val rdd5 = sc.parallelize(List("12","23","","345"),2)

rdd5.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是：”11”，缘由同上。

3、aggregateByKey

　　准备数据：

val pairRDD = sc.parallelize(List( ("cat",2), ("cat", 5), ("mouse", 4),("cat", 12), ("dog", 12), ("mouse", 2)), 2)

def func3(index: Int, iter: Iterator[(String, Int)]) : Iterator[String] = {

iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator

}

　　两个分区中的元素：

　　示例：

　　将每一个分区中的动物最多的个数求和

scala> pairRDD.aggregateByKey(0)(math.max(_, _), _ + _).collect

res69: Array[(String, Int)] = Array((dog,12), (cat,17), (mouse,6))

　　将每种动物个数求和

scala> pairRDD.aggregateByKey(0)(_+_, _ + _).collect

res71: Array[(String, Int)] = Array((dog,12), (cat,19), (mouse,6))

这个例子也可使用：reduceByKey

scala> pairRDD.reduceByKey(_+_).collect

res73: Array[(String, Int)] = Array((dog,12), (cat,19), (mouse,6))

4、coalesce与repartition

　　都是将RDD中的分区进行重分区。

　　区别是：coalesce默认不会进行shuffle（false）；而repartition会进行shuffle（true），即：会将数据真正经过网络进行重分区。

　　示例：

def func4(index: Int, iter: Iterator[(Int)]) : Iterator[String] = {

iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator

}

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)

下面两句话是等价的：

val rdd2 = rdd1.repartition(3)

val rdd3 = rdd1.coalesce(3,true) --->若是是false，查看RDD的length依然是2

5、其余高级算子

参考：http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html

Spark学习之Spark Core

Spark Core

1、什么是Spark？（官网：http://spark.apache.org）

1、什么是Spark？

2、为何要学习Spark？

3、Spark的特色：快、易用、通用、兼容性

2、Spark的体系结构与安装部署

1、Spark集群的体系结构

2、Spark的安装与部署

3、Spark HA的实现

3、执行Spark Demo程序

1、执行Spark Example程序

2、使用Spark Shell

3、在IDEA中编写WordCount程序

4、Spark运行机制及原理分析

1、WordCount执行的流程分析

2、Spark提交任务的流程3.Spark工做机制

5、Spark的算子

1、RDD基础

2、Transformation

3、Action

4、RDD的缓存机制

5、RDD的Checkpoint（检查点）机制：容错机制

6、RDD的依赖关系和Spark任务中的Stage

7、RDD基础练习

6、Spark RDD的高级算子

1、mapPartitionsWithIndex

2、aggregate

3、aggregateByKey

4、coalesce与repartition

5、其余高级算子

2、Spark提交任务的流程

3.Spark工做机制