Spark学习-RDD编程基础

1. RDD基础概念 Spark上开发的应用程序都是由一个driver programe构成,这个所谓的驱动程序在Spark集群经过跑main函数来执行各类并行操做。集群上的全部节点进行并行计算须要共同访问一个分区元素的集合,这就是RDD(RDD resilient distributed dataset)弹性分布式数据集。RDD能够存储在内存或磁盘中,具备必定的容错性,能够在节点宕机重启后恢复。
相关文章
相关标签/搜索