【赵强老师】什么是Spark SQL?

【赵强老师】什么是Spark SQL?

1、Spark SQL简介

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫作DataFrame而且做为分布式SQL查询引擎的做用。sql

为何要学习Spark SQL?咱们已经学习了Hive,它是将Hive SQL转换成MapReduce而后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,因为MapReduce这种计算模型执行效率比较慢。因此Spark SQL的应运而生,它是将Spark SQL转换成RDD,而后提交到集群执行,执行效率很是快!同时Spark SQL也支持从Hive中读取数据。数据库

2、Spark SQL的特色

  • 无缝集成在Spark中,将SQL查询与Spark程序混合。Spark SQL容许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。适用于Java、Scala、Python和R语言。
  • 提供统一的数据访问,以相同的方式链接到任何数据源。DataFrames和SQL提供了一种访问各类数据源的通用方法,包括Hive、Avro、Parquet、ORC、JSON和JDBC。您甚至能够经过这些源链接数据。
  • 支持Hive集成。在现有仓库上运行SQL或HiveQL查询。Spark SQL支持HiveQL语法以及Hive SerDes和udf,容许您访问现有的Hive仓库。
  • 支持标准的链接,经过JDBC或ODBC链接。服务器模式为业务智能工具提供了行业标准JDBC和ODBC链接。

3、核心概念:DataFrames和Datasets

  • DataFrame

DataFrame是组织成命名列的数据集。它在概念上等同于关系数据库中的表,但在底层具备更丰富的优化。DataFrames能够从各类来源构建,例如:编程

  • 结构化数据文件
  • hive中的表
  • 外部数据库或现有RDDs

DataFrame API支持的语言有Scala,Java,Python和R。服务器

【赵强老师】什么是Spark SQL?

从上图能够看出,DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了比RDD更丰富的算子之外,更重要的特色是提高执行效率、减小数据读取以及执行计划的优化。分布式

  • Datasets

Dataset是数据的分布式集合。Dataset是在Spark 1.6中添加的一个新接口,是DataFrame之上更高一级的抽象。它提供了RDD的优势(强类型化,使用强大的lambda函数的能力)以及Spark SQL优化后的执行引擎的优势。一个Dataset 能够从JVM对象构造,而后使用函数转换(map, flatMap,filter等)去操做。 Dataset API 支持Scala和Java。 Python不支持Dataset API。ide

4、建立DataFrames

  • 测试数据以下:员工表

【赵强老师】什么是Spark SQL?

  • 定义case class(至关于表的结构:Schema)
case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,deptno:Int)
  • 将HDFS上的数据读入RDD,并将RDD与case Class关联
val lines = sc.textFile("hdfs://bigdata111:9000/input/emp.csv").map(_.split(","))
  • 把每一个Array映射成一个Emp的对象
val emp = lines.map(x => Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))
  • 生成DataFrame
val allEmpDF = emp.toDF
  • 经过DataFrames查询数据

【赵强老师】什么是Spark SQL?

  • 将DataFrame注册成表(视图)
allEmpDF.createOrReplaceTempView("emp")
  • 执行SQL查询
spark.sql("select * from emp").show

【赵强老师】什么是Spark SQL?

相关文章
相关标签/搜索