SparkSQL的执行和优化过程

SparkSQL是基于RDD的,但是其执行效率又比RDD高,其原因就是因为SparkSQL的优化器–Catalyst RDD执行效率低是因为RDD无法进行优化,其本身不具备数据scheme约束信息,无法得知数据的具体信息,然而SparkSQL一般用于结构化和半结构化数据,所以具备数据的scheme信息,可以对其进行优化处理 一:SparkSQL的API SparkSQL的API有三种 sql Da
相关文章
相关标签/搜索