spark基础之RDD详解

一 什么是RDD,有什么特点? RDD: Resilient Distributed Dataset,弹性分布式数据集。 特点: # 它是一种数据的集合 # 它可以被分区,每一个分区分布在不同的集群中节点,从而使得RDD可以被并行处理,所以它是分布式的 # 提供容错性,它将计算转换一个成一个有向无环图(DAG)的任务集合,方便利用血缘关系进行数据恢复 # 中间计算结果缓存在内存 二 RDD与Map
相关文章
相关标签/搜索