Spark中RDD的理解,以及RDD与DataFormat、DataSet间的关系

## 三者转换关系 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 在代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD支持两种类型的操作,转化操作(transform)和行动操作(action)。 一个 RDD 可以简单的理解为一个分布式的元素集合. RDD 表示只读的
相关文章
相关标签/搜索