原生的spark assembly jar是不依赖hive的,若是要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法:html
假设已经装好了maven,sql
1添加环境变量,若是jvm的这些配置过小的话,可能致使在编译过程当中出现OOM,所以放大一些:shell
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
数据库
2 将spark源码下的scalastyle-config.xml,复制到assembly下apache
3 cd到spark源码目录,执行:jvm
mvn -Pyarn -Dhadoop.version=2.5.0-cdh5.3.0 -Dscala-2.10.4 -Phive -Phive-thriftserver -DskipTests clean packagesocket
(用cdh版本的只要写 mvn -Pyarn -Phive -DskipTests clean package就能够了)maven
注意hadoop.version和scala的版本设置成对应的版本oop
经 过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark- assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar文件,用rar打开看看hive jdbc package有没有包含在里面,有的话说明编译成功了。spa
前面介绍如何编译包含hive的spark-assembly.jar了
cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入以下语句:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
你会发现无法执行经过,由于cm装的原生的spark是不支持spark hql的,咱们须要手动进行一些调整:
第一步,将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录:/user/spark/share/lib
第二步:在你要运行spark-shell脚本的节点上的/opt/cloudera/parcels/CDH- 5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面,下载这个jar到这个目录:hadoop fs -get hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar(具 体路径替换成你本身的)。而后这个目录下面原来会有个软连接spark-assembly.jar指向的是spark-assembly-1.2.0- cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar,咱们把这个软连接删除掉从新建立一个同名的软连接:ln -s spark-assembly-with-hive-maven.jar spark-assembly.jar,指向咱们刚下载下来的那个JAR包,这个JAR包会在启动spark-shell脚本时装载到driver program的classpath中去的,sparkContext也是在driver中建立出来的,因此须要将咱们编译的JAR包替换掉原来的 spark-assembly.jar包,这样在启动spark-shell的时候,包含hive的spark-assembly就被装载到 classpath中去了。
第三步:在/opt/cloudera/parcels/CDH/lib/spark/conf/目录下面建立一个 hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目录是默认的spark的配置目录,当 然你能够修改默认配置目录的位置。hive-site.xml内容以下:
<?xml version="1.0" encoding="UTF-8"?> <!--Autogenerated by Cloudera Manager--> <configuration> <property> <name>hive.metastore.local</name> <value>false</value> </property> <property> <name>hive.metastore.uris</name> <value>thrift://n1:9083</value> </property> <property> <name>hive.metastore.client.socket.timeout</name> <value>300</value> </property> <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> </configuration>
这个应该你们都懂的,总要让spark找到hive的元数据在哪吧,因而就有了上面一些配置。
第四步:修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark- defaults.conf,添加一个属性:spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib /spark-assembly-with-hive-maven.jar。这个是让每一个executor下载到本地而后装载到本身的classpath 下面去的,主要是用在yarn-cluster模式。local模式因为driver和executor是同一个进程因此不要紧。
以上完事以后,运行spark-shell,再输入:val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) 应该就没问题了。咱们再执行一个语句验证一下是否是链接的咱们指定的hive元数据库:hiveContext.sql("show tables").take(10) //取前十个表看看最后要重点说明一下这里的第二步第三步和第四步,若是是yarn-cluster模式的话,应该替换掉集群全部节点的spark- assembly.jar集群全部节点的spark conf目录都须要添加hive-site.xml,每一个节点spark-defaults.conf都须要添加 spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with- hive-maven.jar。能够写个shell脚原本替换,否则手动一个一个节点去替换也是蛮累的。