Spark Catalyst的实现分析

Spark SQL是Spark内部最核心以及社区最为活跃的组件,也是将来Spark对End-User最好的接口,支持SQL语句和类RDD的Dataset/DataFrame接口。相比在传统的RDD上进行开发,Spark SQL的业务逻辑在执行前和执行过程当中都有相应的优化工具对其进行自动优化(即Spark Catalyst以及Tungsten两个组件),所以将来Spark SQL确定是主流。git
相关文章
相关标签/搜索