SparkSql:数据抽象(DataFrame与DataSet详解)

DataFrame 什么是DataFrame DataFrame是一种以RDD为基础的带有Schema元信息的分布式数据集,类似于传统数据库的二维表格 。 DataSet 什么是DataSet DataSet是保存了更多的描述信息,类型信息的分布式数据集。 与RDD相比,保存了更多的描述信息,概念上等同于关系型数据库中的二维表。 与DataFrame相比,保存了类型信息,是强类型的,提供了编译时类
相关文章
相关标签/搜索