Spark面试知识点-SparkSQL(1)

时间 2019-11-11

标签 spark 面试知识 sparksql 栏目 Spark 繁體版

原文原文链接

0.介绍：java

(1)Spark SQL的前身是Shark，即Hive on Spark，数据库

1.SparkSQL特色：编程

(1)支持多种数据源：Hive,RDD,Parquet,JSON，JDBC等。性能优化

(2)多种性能优化技术：in-memory columnar storage,byte-code generation,cost model动态评估等分布式

(3)组件扩展：对于SQL的语法解析器、分析器以及优化器，用户均可以本身从新开发，而且动态扩展。SparkSQL的性能对比Shark来讲，又有了数倍的提高。性能

2.SparkSQL和DataFrame学习

(1)SparkSQL是Spark中的一个模块，主要用于进行结构化数据的胡处理。它提供了一个一个最核心的编程抽象，就是DataFrame。同时SparkSQL还能够做为分布式的SQL查询引擎。SparkSQL最重要的功能之一就是从Hive中查询数据。优化

(2)DataFrame能够理解为是以列的形式组织的分布式的数据集合，它和关系型数据库中的表很是类似，可是底层作了不少的优化。DataFrame能够经过不少源来构建，如结构化数据文件，Hive中的表，外部的关系型数据库以及RDD。spa

(3)Spark 在 RDD 基础上，提供了 DataFrame 和 Dataset 用户编程接口，而且在跨语言（ Scala 、 Java 、Python 和 R）方面具备很好的支持。为了追求简化，下降开发人员的学习成本，从 Spark 2.0 开始， DataFrame 和 Dataset 进行了统一。 scala

3.SparkContext

(1)SparkContext对象的建立

java版本：

scala 版本的对象建立