Spark中RDD的建立与存储

  RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。java RDD是只读的、分区记录的集合。RDD不须要物化。RDD含有如何从其余RDD衍生(即计算)出本RDD的相关信息(即Lineage),据此能够从物理存储的数据计算出相应的RDD分区。node   每一个RDD有5个主要的属
相关文章
相关标签/搜索