Spark之深刻理解RDD结构

RDD RDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,天然也是理解Apache Spark 工做原理的最佳入口之一。html RDD的特色: 1. 是一个分区的只读记录的集合; 2. 一个具备容错机制的特殊集; 3. 只能经过在稳定的存储器或其余RDD上的肯定性操做(转换)来建立; 4. 能够分布在集群的节点上,以函数式操做集
相关文章
相关标签/搜索