Spark on Yarn ”爬坑“集锦（spark1.2）

时间 2021-02-15

标签 php html java mysql git github sql shell apache api 栏目 Spark 繁體版

原文原文链接

1、概述php

Ha,已经有两个月没有更新blog了。因为近排公司须要引入Spark相关技术，我也是做为技术攻关人员之一，在这段时间使用Spark遇到了挺多问题，跌的坑也比较多，这篇blog主要总结一下这段时间使用Spark遇到的一些问题。
html

2、遇到的"坑"和爬坑思路
java

一、SparkSql on yarn-client模式遇到找不到mysql驱动包问题。mysql

解决方案：这个比较简单直接编辑$SPARK_HOME/conf/spark-env.sh文件，将mysql的驱动jarexport进去，如：git

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/hadoop/spark-1.2.0-bin-hadoop2.4/lib/mysql-connector-java-5.1.7-bin.jar:/home/hadoop/hadoop/hadoop-2.5.0/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar

里边我同时也将lzo的jar包也export进去了，是由于我须要在spark中使用lzo的压缩输入格式，对于这个lzo的jar包须要注意下，这个jar包是须要本身在装好了lzo本地库以后，本身编译出来的。github

二、SparkSql on yarn-cluster模式遇到找不到datanucleus相关jar包，具体错误信息看下面：sql

Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient
 at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1412)
 at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.<init>(RetryingMetaStoreClient.java:62)
 at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:72)
 at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClient(Hive.java:2453)
 at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:2465)
 at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:340)
 ... 7 more
Caused by: java.lang.reflect.InvocationTargetException
 at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
 at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
 at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
 at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
 at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1410)
 ... 12 more
Caused by: javax.jdo.JDOFatalUserException: Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found.
NestedThrowables:
java.lang.ClassNotFoundException: org.datanucleus.api.jdo.JDOPersistenceManagerFactory
 at javax.jdo.JDOHelper.invokeGetPersistenceManagerFactoryOnImplementation(JDOHelper.java:1175)
 at javax.jdo.JDOHelper.getPersistenceManagerFactory(JDOHelper.java:808)
 at javax.jdo.JDOHelper.getPersistenceManagerFactory(JDOHelper.java:701)
 at org.apache.hadoop.hive.metastore.ObjectStore.getPMF(ObjectStore.java:310)
 at org.apache.hadoop.hive.metastore.ObjectStore.getPersistenceManager(ObjectStore.java:339)
 at org.apache.hadoop.hive.metastore.ObjectStore.initialize(ObjectStore.java:248)
 at org.apache.hadoop.hive.metastore.ObjectStore.setConf(ObjectStore.java:223)
 at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:73)
 at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:133)
 at org.apache.hadoop.hive.metastore.RawStoreProxy.<init>(RawStoreProxy.java:58)
 at org.apache.hadoop.hive.metastore.RawStoreProxy.getProxy(RawStoreProxy.java:67)
 at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.newRawStore(HiveMetaStore.java:497)
 at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.getMS(HiveMetaStore.java:475)
 at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB(HiveMetaStore.java:523)
 at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.init(HiveMetaStore.java:397)
 at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.<init>(HiveMetaStore.java:356)
 at org.apache.hadoop.hive.metastore.RetryingHMSHandler.<init>(RetryingHMSHandler.java:54)
 at org.apache.hadoop.hive.metastore.RetryingHMSHandler.getProxy(RetryingHMSHandler.java:59)
 at org.apache.hadoop.hive.metastore.HiveMetaStore.newHMSHandler(HiveMetaStore.java:4944)
 at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.<init>(HiveMetaStoreClient.java:171)
 ... 17 more
Caused by: java.lang.ClassNotFoundException: org.datanucleus.api.jdo.JDOPersistenceManagerFactory
 at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
 at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
 at java.security.AccessController.doPrivileged(Native Method)
 at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
 at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
 at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
 at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
 at java.lang.Class.forName0(Native Method)
 at java.lang.Class.forName(Class.java:270)
 at javax.jdo.JDOHelper$18.run(JDOHelper.java:2018)
 at javax.jdo.JDOHelper$18.run(JDOHelper.java:2016)
 at java.security.AccessController.doPrivileged(Native Method)
 at javax.jdo.JDOHelper.forName(JDOHelper.java:2015)
 at javax.jdo.JDOHelper.invokeGetPersistenceManagerFactoryOnImplementation(JDOHelper.java:1162)
 ... 36 more

解决方案：这个问题至关坑爹，我的感受彻底是个bug来的。像这种jar应该是在$SPARK_HOME/bin/compute-classpath.sh计算出来而后export进去的，看看comput-classpath.sh的相关shell代码（从97行往下看，spark版本为1.2）：shell

很遗憾，在sparkSql on yarn-cluster模式这个脚本没法$SPARK_HOME/lib下的datanucleus相关包export进去。通过几番折腾，翻了一遍spark在github上的Pull request终于找到了解决方案：在提交启动sparkSql cli的时候使用--jar将相关datanucleus的jar包export进去就ok了，看命令：apache

spark-sql --master yarn-cluster \
 --jars /data1/app/spark-1.2.0-bin-hadoop2.4/lib/datanucleus-api-jdo-3.2.6.jar,/data1/app/spark-1.2.0-bin-hadoop2.4/lib/datanucleus-core-3.2.10.jar,/data1/app/spark-1.2.0-bin-hadoop2.4/lib/datanucleus-rdbms-3.2.9.jar,/data1/app/spark-1.2.0-bin-hadoop2.4/lib/mysql-connector-java-5.1.7-bin.jar  \
--driver-memory 4G  --executor-cores 32 --queue spark  --executor-memory 70G  --num-executors 7  -e "use test1;
select count(*) from st_pc_lifecycle_list tb2 left outer join
(select ip,count(*) from st_pc_lifecycle_list where dt='2014-07-16' group by ip) tb1 on(tb1.ip=tb2.ip) where tb2.dt>='2014-11-20'  limit 10;"

三、使用spark-sql on yarn-cluster模式没法链接到hive-site.xml指定的metaStore，use 相关database时候出现找不到库错误。这个问题又是至关隐蔽的问题，刚刚排查的时候也是比较困难的。api

详细错误信息：

解决问题思路：

（1）咱们观察这个错误，可能会隐隐约约想，这个我明显是链接上了metastore，那么为何还找不到metastore里边的库啊？？呵呵，我当时也是至关郁闷，直到我看到了这么一条提示：metastore.MetaStoreDirectSql: MySQL check failed（上面的错误截图没有截出来），这样我就知道了在计算节点启动的Dirver并无正常的链接到hive-site.xml指定的metaStore。那么既然driver没有链接上hive-site.xml指定的metaStore，那么为何看dirver的日志显示的确实能够链接上metaStore，只是没法链接到相应的库的？这下要搜源码了，直接在源码搜索"hive-site.xml"，而后在sql-programming-guide.md中看到了这么一段提示信息：

或者再看HiveContext代码：

哈哈，这么一看听明白了：就算用户不指定hive-site.xml文件，也会创建一个默认的hiveContext的，这样说的话在这个hiveContext中确定是找不到hive-site.xml指定的库了。如今的问题转化成为计算节点上的Dirver找不到hive-site.xml了。启动做业时使用--driver-class-path,--jar,--drier-library-path指定hive-site.xml位置都无论用。直到看到Dirver界面的classpath才有些顿悟：

既然hadoop的conf path已经被export到了classpath中，为什么不试试将hive-site.xml丢到hadoop的conf路径试试呢，哈哈试了果真ok，了能够正在链接hive-site.xml指定的ip了(要将hive-site.xml丢到全部计算节点的配置文件夹中，由于Driver可能随机到任何一个计算节点)。呵呵，找不到hive-site.xml的问题已经解决了，可是仍是链接不上metaStore，已经卡在链接阶段。哈哈这个比较好解决：在hive-site.xml中将hive.metastore.uris配置上就ok了，给你们个参考：

<property>
        <name>hive.metastore.uris</name>
                <value>thrift://10.1.80.40:9083</value>
          <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>
</property>
<property>
        <name>hive.server2.thrift.min.worker.threads</name>
        <value>5</value>
        <description>Minimum number of Thrift worker threads</description>
</property>
<property>
        <name>hive.server2.thrift.max.worker.threads</name>
        <value>500</value>
        <description>Maximum number of Thrift worker threads</description>
</property>
<property>
        <name>hive.server2.thrift.port</name>
        <value>10000</value>
        <description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</description>
</property>
<property>
        <name>hive.server2.thrift.bind.host</name>
        <value>slave8040</value>
        <description>Bind host on which to run the HiveServer2 Thrift interface.Can be overridden by setting$HIVE_SERVER2_THRIFT_BIND_HOST</description>
</property>
<property>
        <name>hive.server2.enable.doAs</name>
        <value>true</value>
</property>
<property>
  <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
    <description>location of default database for the warehouse</description>
 </property>
<property>
  <name>hive.metastore.local</name>
  <value>hive.metastore.local</value>
  <description>location of default database for the warehouse</description>
</property>

配置好了metaStore的uri后，不要忘记了重要的一步，就是启动metaStore服务：进入$HIVE_HOME/bin,运行nohup ./hive --server metastore &

启动完以后看看端口是否正常：

[hadoop@slave8040 conf]$ jps 
23158 SparkSubmitDriverBootstrapper 
23510 SparkSubmit 
4442 Jps 
9866 RunJar 
[hadoop@slave8040 conf]$ ps -ef | grep 9866 
hadoop 4504 14107 0 16:25 pts/0 00:00:00 grep 9866 
hadoop 9866 1 0 Dec27 ? 00:01:54 /usr/local/jdk1.7.0_51/bin/java -Xmx3072m -Djava.net.preferIPv4Stack=true -Dhadoop.log.dir=/data2/hadoop/logs/hadoop -Dhadoop.log.file=hadoop.log -Dhadoop.home.dir=/home/hadoop/hadoop/hadoop-2.5.0 -Dhadoop.id.str=hadoop -Dhadoop.root.logger=INFO,console -Djava.library.path=/home/hadoop/hadoop/hadoop-2.5.0/lib/native -Dhadoop.policy.file=hadoop-policy.xml -Djava.net.preferIPv4Stack=true -Xmx2048m -Dhadoop.security.logger=INFO,NullAppender org.apache.hadoop.util.RunJar /home/hadoop/hadoop/apache-hive-0.13.1-bin/lib/hive-service-0.13.1.jar org.apache.hadoop.hive.metastore.HiveMetaStore 
[hadoop@slave8040 conf]$ netstat -antp| grep 9866 
(Not all processes could be identified, non-owned process info 
will not be shown, you would have to be root to see it all.) 
tcp 0 0 0.0.0.0:9083 0.0.0.0:* LISTEN 9866/java 
tcp 0 0 10.1.80.40:47635 10.1.80.40:3306 ESTABLISHED 9866/java 
tcp 0 0 10.1.80.40:47591 10.1.80.40:3306 ESTABLISHED 9866/java 
tcp 0 0 10.1.80.40:47636 10.1.80.40:3306 ESTABLISHED 9866/java 
tcp 0 0 10.1.80.40:9083 10.1.80.40:51365 ESTABLISHED 9866/java 
tcp 0 0 10.1.80.40:47590 10.1.80.40:3306 ESTABLISHED 9866/java 
tcp 0 0 10.1.80.40:9083 10.1.80.40:51367 ESTABLISHED 9866/java

再次spark-sql on yarn-cluster模式彻底ok。

吐槽下：spark还有挺多不完善的东西，小bug挺多，还有官方相关文档不全，像那个配置文档也只是部分配置项的，这个但愿之后能够继续完善。不过spark的版本更新速度至关快，还有在github上的提问得到的回答想至关快，这个不错。哈哈，Spark的社区交流仍是至关活跃的，呵呵继续爬坑。

四、最后一个坑，持久代OOM问题。

错误信息：使用spark-sql on yarn-cluster的时候启动driver报以下错误：

Exception in thread "Thread-2" java.lang.OutOfMemoryError: PermGen space

哈哈，这个又是至关常见的错误。

解决思路：

直接增大PermGen space,编辑spark-defaults.xml添加：

spark.driver.extraJavaOptions -XX:PermSize=128M -XX:MaxPermSize=256M

再试ok。可是这里还有一个问题：什么使用yarn-client运行spark-sql就不会出现这问题呢？经过一番脚本追踪发现yarn-client模式运行时在$SPARK_HOME/bin/spark-class文件中已经设置了持久代大小，具体看spark-class的116行：JAVA_OPTS="-XX:MaxPermSize=128m $OUR_JAVA_OPTS"，问题解决。Spark的各类模式的jvm的内存参数设置比较容易混淆，这里引用http://www.aboutyun.com/thread-9425-1-1.html 里边的小段总结：

总结一下Spark中各个角色的JVM参数设置：

(1)Driver的JVM参数：
-Xmx，-Xms，若是是yarn-client模式，则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值，-Xmx，-Xms值同样大小；若是是yarn-cluster模式，则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的JVM参数值。
PermSize，若是是yarn-client模式，则是默认读取spark-class文件中的JAVA_OPTS="-XX:MaxPermSize=256m $OUR_JAVA_OPTS"值；若是是yarn-cluster模式，读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的JVM参数值。
GC方式，若是是yarn-client模式，默认读取的是spark-class文件中的JAVA_OPTS；若是是yarn-cluster模式，则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的参数值。
以上值最后都可被spark-submit工具中的--driver-java-options参数覆盖。

(2)Executor的JVM参数：
-Xmx，-Xms，若是是yarn-client模式，则默认读取spark-env文件中的SPARK_EXECUTOR_MEMORY值，-Xmx，-Xms值同样大小；若是是yarn-cluster模式，则读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。
PermSize，两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。
GC方式，两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。

3、总结
在Spark的使用当中，遇到的各类问题仍是挺多的，好在版本更新比较快。另外，spark1.2中将shuffle默认基于sort了，还有采用了netty方式，可是在用的过程当中也遇到了一些问题，好比fetch Failure、lost Excutor等等，下篇blog总结吧。生命不断，爬坑不止！

参考文献：http://www.aboutyun.com/thread-9425-1-1.html