【赵强老师】在Spark SQL中读取JSON文件

时间 2020-04-14

原文原文链接

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫作DataFrame而且做为分布式SQL查询引擎的做用。为何要学习Spark SQL？若是你们了解Hive的话，应该知道它是将Hive SQL转换成MapReduce而后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，因为MapReduce这种计算模型执行效率比较慢。因此Spark SQL的应运而生，它是将Spark SQL转换成RDD，而后提交到集群执行，执行效率很是快！同时Spark SQL也支持从Hive中读取数据。

Spark SQL也能自动解析JSON数据集的Schema，读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。

须要注意的是，这里的JSON文件不是常规的JSON格式。JSON文件每一行必须包含一个独立的、自知足有效的JSON对象。若是用多行描述一个JSON对象，会致使读取出错。

须要用到的测试数据：people.json

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

定义路径

val path ="/root/temp/people.json"

读取Json文件，生成DataFrame：

val peopleDF = spark.read.json(path)

打印Schema结构信息

peopleDF.printSchema()

建立临时视图

peopleDF.createOrReplaceTempView("people")

执行查询

spark.sql("SELECT name FROM people WHERE age=19").show