Spark编程模型(二):RDD简介

    RDD是Spark应用开发过程中最为基本也是最为重要的一类数据结构,RDD被定义为只读、分区化的记录集合,更为通俗来讲,RDD是对原始数据的进一步封装,封装导致两个结果:第一个结果是数据访问权限被限制,数据只能被读,而无法被修改;第二个结果是数据操作功能被强化,使得数据能够实现分布式存储、并发处理、自动容错等诸多功能。Spark的整个计算过程都是围绕数据集RDD来进行。     4.1 R
相关文章
相关标签/搜索