SparkSQL--基础知识点

什么是SparkSQL SparkSQL是Spark用于处理结构化数据的一个模块,他将数据抽象为DataFrame和DataSet,并且SparkSQL也是OLAP数据引擎。 Hive将SQL转换为MR提交给集群执行,那么SparkSQL就将SQL转换为RDD提交给集群执行。 SparkSQL兼容HiveQL。 什么是DataFrame DataFrame和RDD类似,都是一个用来存储数据的集合,
相关文章
相关标签/搜索