spark中的RDD是什么,有哪些特性

RDD(Resilient Distributed Dataset)叫作分布式数据集,是Spark中最基本的数据抽象,它表明一个不可变、可分区、里面的元素可并行计算的集合。分布式 Dataset:就是一个集合,用于存放数据的函数 Distributed:分布式,能够并行在集群计算内存 Resilient:表示弹性的ci 弹性表示hash 一、RDD中的数据能够存储在内存或者是磁盘it ​ *RDD
相关文章
相关标签/搜索