《Spark快速大数据分析》笔记Ch3 RDD编程

介绍Spark对数据的核心抽象——弹性分布式数据集。RDD其实就是分布式的元素集合。在Spark中,对数据的全部操做不外乎建立RDD、转化已有RDD以及调用RDD操做进行求值。Spark会自动将RDD中的数据分发到集群上,并将操做并行化执行。 一、RDD基础 Spark中的RDD就是一个不可变的分布式对象集合。每一个RDD都被分为多个分区,这些分区运行在集群中的不一样节点上。RDD能够包含Pyth
相关文章
相关标签/搜索