Spark RDD核心知识点总结

  RDD介绍数据结构 Resilient Distributed Datasets,意为容错的、并行的数据结构,可让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操做来操做这些数据。分布式  RDD的特色spa 它是在集群节点上的不可变的、已分区的集合对象。 经过并行转换的方式来建立如(map, filter, join, etc)。 失败自动重建。 能够
相关文章
相关标签/搜索