Spark中RDD与DataFrame与DataSet的区别与联系

1.概述 这是一个面试题web 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,相似传统数据库中的二维表格 DataFrame与RDD的主要区别在于,前者带有schema元数据信息,既DataFram所表示的二维数据集的每一列都带有名称和类型。 而RDD,因为无从得知所存储数据元素的具体内部结构,Spark Core只能在stage层面进行简单,通用的流水线优化。 2.例子说
相关文章
相关标签/搜索