spark的灵魂：RDD和DataSet

时间 2020-01-01

标签 spark 灵魂 rdd dataset 栏目 Spark 繁體版

原文原文链接

spark创建在抽象的RDD上，把不一样处理的数据的需求转化为RDD，而后对RDD进行一系列的算子运算，从而获得结果。
RDD是一个容错的，并行的数据结构，能够将数据存储到磁盘和内存中，并能控制数据分区，并提供了丰富的API来操做数据。数据结构

1：RDD的定义及五大特性剖析
RDD是分布式内存的一个抽象概念，是一种高度受限的共享内存模型，即RDD时只读的记录分区的集合，能跨集群全部节点并行计算，是一种基于工做集的抽象模型。
（1）分区列表
（2）每个分区都有一个计算函数
（3）依赖于其它RDD的列表
（4）key-value数据类型的RDD分区器
（5）每个分区都有一个优先位置列表
2：DataSet的定义及内部机制剖析分布式