Spark SQL和DataFrame

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用. 由于MapReduce这种模型执行效率较慢,所以Spark SQL应用而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快. DataFrame:与RDD类似,DataFrame也是一个分布式数据容器.然而DataFrame更像传统数
相关文章
相关标签/搜索