【Spark】--Spark中RDD的理解

1.什么是RDD? RDD:RDD是Spark的计算模型 RDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。 操作RDD就像操作本地集合一样,数据会被分散到多台机器中(以分区为单位)。     RDD是Spark中的一个基本抽象(可以理解为代理) 有了RDD,就可以像操作本地的集合
相关文章
相关标签/搜索