Spark编程简易版笔记

RDD(弹性分布数据集)是一个容错的、只读的、可进行并行操作的数据结构,是一个分布在集群备个节点的存放元素的集合。RDD有3种不同的创建方法。一种是对程序中存在的基本数据结构中的集合进行并行化(如Set、List、Array),另一种是通过已有RDD转化得到新的RDD,这两种都是通过内存已有集合创建RDD。还有一种是直接读取外部存储的数据集。 从内存已有数据创建RDD 从内存已有数据创建RDD方法
相关文章
相关标签/搜索