spark之DataFrame、DataSet、RDD的区别

RDD(弹性分布式数据集) RDD是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合,RDD是Spark Core的底层核心,Spark则是这个抽象方法的实现 DataFrame 上图直观地体现了DataFrame和RDD的区别。 左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。 而右侧的DataFr
相关文章
相关标签/搜索