Spark SQL is a Spark module for structured data processinghtml
对不一样的数据类型使用统一的接口来读写。java
提高大数据处理速度最有效的方法就是忽略无关的数据。mysql
(1)使用列式存储(columnar formats),好比Parquet、ORC、RCFileweb
(2)使用分区裁剪(partitioningpruning),好比按天分区,按小时分区等sql
(3)利用数据文件中附带的统计信息进行剪枝:例如每段数据都带有最大值、最小值和NULL值等统计信息,当某一数据段确定不包含查询条件的目标数据时,能够直接跳过这段数据。(例如字段age某段最大值为20,但查询条件是>50岁的人时,显然能够直接跳过这段)shell
(4)将查询源中的各类信息下推至数据源处,从而充分利用数据源自身的优化能力来完成剪枝、过滤条件下推等优化。数据库
Catalyst优化器对SQL语句进行优化,从而获得更有效的执行方案。即便咱们在写SQL的时候没有考虑这些优化的细节,Catalyst也能够帮咱们作到不错的优化结果。架构
a)将hive的配置文件hive-site.xml拷贝到spark conf目录,同时添加metastore的url配置(对应hive安装节点,个人为3节点)。app
修改完后再发送给其余节点less
b)拷贝hive中的mysql jar包到spark的jar目录下,再发送给其余节点
c)检查spark-env.sh 文件中的配置项,没有添加,有则跳过
a)检查mysql是否启动
b)启动hive metastore服务
c)启动hive
本地kfk.txt文件
d)启动spark-shell
启动spark-sql
经过使用beeline能够实现启动一个应用给多个用户同时操做,而没必要要启动多个应用,这样更加节省资源。
1)启动ThriftServer
2)启动beeline
启动spark-shell
Spark SQL与HBase集成,其核心就是Spark Sql经过hive外部表来获取HBase的表数据。
1)拷贝HBase的包和hive包到spark 的jars目录下
2)启动Hbase
3)启动Hive
4)启动spark-shell
这一步若是报NoClassDefFoundError错误请参考博文:Spark-HBase集成错误之 java.lang.NoClassDefFoundError: org/htrace/Trace
到这,Spark与HBase的集成就算成功了!
以上就是博主为你们介绍的这一板块的主要内容,这都是博主本身的学习过程,但愿能给你们带来必定的指导做用,有用的还望你们点个支持,若是对你没用也望包涵,有错误烦请指出。若有期待可关注博主以第一时间获取更新哦,谢谢!同时也欢迎转载,但必须在博文明显位置标注原文地址,解释权归博主全部!