【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节①

时间 2019-11-06

标签 Spark亚太研究院系列丛书 spark 实战高手之路架构设计编程模型栏目 Spark 繁體版

原文原文链接

1、以RDD为基石的Spark编程模型编程

在Spark中一切都是基于RDD的：分布式

什么是RDD呢？官方给出的解释是：函数

也就是说每一个RDD都至少有如下三个函数实现:spa

Spark自带了很是多的RDD:orm

RDD主要分为两种：事件

其中的transformations是lazy execution的，须要具体的action去触发，每一个action操做都是一个单独的job；ip

接下来咱们看一个具体的RDD操做的例子：pip

RDD中有两个比较特殊的RDD:io

这两个RDD的特殊之处在于皆是控制性操做的RDD：form

二，RDD的依赖和运行时

在Spark中RDD是具有依赖关系的，而依赖分为两种：

“Narrow”依赖的一个好处就是能够进行内部的pipeline操做：

运行的时候是以RDD为统一抽象并行化运行：

更进一步的详细RDD并行化计算过程以下所示：

正如全部的分布式结构同样，Spark分布式集群也是主从结构的：

Spark运行时组件以下所示：

Spark运行时候的事件流以下所示：