spark===RDD

在spark的简介中我们已经说过了,为了让spark的处理速度加快,其中有一个解决办法就是引入了一个分布式的弹性数据集--RDD 那什么是RDD:RDD(Resilient Distributed Dataset)弹性数据集,是spark中的最基本的数据抽象,虽然说RDD是一个数据集,但是,它不存储数据,他表示的是一个不可变的,可分区的元素并行计算的集合,允许用户在执行多个查询时将工作缓存到内存中
相关文章
相关标签/搜索