RDD基本操做

定义 RDD是弹性分布式数据集(Resilient Distributed Dataset), RDD 其实就是分布式的元素集合。就像List,Array,Set,Map集合。在 Spark 中,对数据的全部操做不外乎建立 RDD、 转化已有 RDD 以及调用 RDD 操做进行求值。而在这一切背后, Spark 会自动将RDD中的数据分发到集群上,并将操做并行化执行。java 用户可使用两种方法建
相关文章
相关标签/搜索