SPARK简述(二)

RDD:弹性分布式数据集,是只读的分区记录集合;Spark最核心最精髓的部分,spark将所有数据都抽象成RDD。RDD是一个能够让用户可以准确的将中间结果数据持久化到内存中的一个可容错的并行数据结构,可以控制(RDD数据集) 分区,优化数据存储,并且有一组丰富的操作集可以操作这份数据。 RDD的获取:从共享的文件系统获取(如:HDFS);通过已存在的RDD转换。 RDD操作:作用于RDD上的Op
相关文章
相关标签/搜索