Spark学习—RDD编程

RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD实际上是分布式的元素集合。当Spark对数据操做和转换时,会自动将RDD中的数据分发到集群,并将操做并行化执行。java Spark中的RDD是一个不可变的分布式对象集合。每一个RDD都倍分为多个分区,这些分区运行在集群中的不一样节点。RDD能够包含Python、Java、Sc
相关文章
相关标签/搜索