Spark2.x学习笔记:三、 Spark核心概念RDD

Spark学习笔记:三、Spark核心概念RDD 3.1 RDD概念 弹性分布式数据集(Resilient Distributed Datasets,RDD) ,能够分三个层次来理解:java 数据集:故名思议,RDD 是数据集合的抽象,是复杂物理介质上存在数据的一种逻辑视图。从外部来看,RDD 的确能够被看待成通过封装,带扩展特性(如容错性)的数据集合。 分布式:RDD的数据可能在物理上存储在多
相关文章
相关标签/搜索