Java Spark RDD编程:常见操做、持久化、函数传递、reduce求平均

RDD是Spark的核心抽象,全称弹性分布式数据集(就是分布式的元素集合)。Spark中对数据的全部操做无外乎建立RDD、转化已有RDD和调用RDD的操做进行求值。Spark 会自动将  RDD 中的数据分发到集群上,并将操做并行化执行  RDD在抽象上来讲是一种不可变的分布式数据集合(外部文本文件是在建立RDD时自动被分为多个分区)。它是被分为多个分区,每一个分区分布在集群的不一样节点(自动分发
相关文章
相关标签/搜索