Failed to create Spark client for Spark session

时间 2021-01-06

标签 apache vim 微信网络 session maven ide oop 测试栏目 Spark 繁體版

原文原文链接

最近在hive里将mr换成spark引擎后，执行插入和一些复杂的hql会触发下面的异常：apache

org.apache.hive.service.cli.HiveSQLException: Error while compiling statement: FAILED: SemanticException Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session c5924990-6187-4a15-a760-ec3b1afbc199

未能建立spark客户端的缘由有这几个：vim

1，spark没有打卡微信

2，spark和hive版本不匹配网络

3，hive链接spark客户端时长太短session

解决方案：maven

1，在进入hive以前，须要依次启动hadoop，spark，hiveservice，这样才能确保hive在启动spark引擎时能成功ide

spark启动：oop

cd /opt/spark
./sbin/start-all.sh

2,版本问题是最多见也是出现最多的问题，我用的版本依次为hadoop3.3.0，hive3.1.2，spark2.4.7，以前测试过spark3.0.1，发现和hive不兼容测试

这里还须要注意Apache官网的提供了如图所示的几个spark包版本：ui

但在集成hive时spark自己不能自带hive配置，因此只有第三个是能够用的，可是我测试了一下在个人电脑上仍是报错，因此我选择了本身编译，下载最后一个源码包，解压后进入spark目录

输入命令：

./dev/make-distribution.sh --name without-hive --tgz -Pyarn -Phadoop-3.3 -Dhadoop.version=3.3.0 -Pparquet-provided -Porc-provided -Phadoop-provided

可是发现编译卡住了，原来编译会自动下载maven，scala，zinc，存放在build目录下，如图：

因为下载过于缓慢，这里直接将这三个包放在build目录下，解压好，编译时会自动识别，能够省去不少时间，快速进入编译，须要压缩包的能够关注公众号：Tspeaker97 给我发消息找我要

编译过程比较慢，我花了30分钟才将spark编译好，中间还网络断流卡住失败了一次，若是不能访问外网的，建议将maven镜像改成阿里云。

编译完成后在spark目录下就能够看到编译出的tgz包，解压到对应目录：

vim spark-env.sh
插入以下代码：
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

接下来就是hive的设置，这里我用的是公司编译好的版本，大小比Apache官网大一点，想要能够微信扣我

进入hive/conf目录：

vim spark-defaults.conf
插入以下代码：
spark.master                             yarn
spark.eventLog.enabled                   true
spark.eventLog.dir                       hdfs://hadoop01:9820/spark-history
spark.executor.memory                    2g

在hdfs建立对应目录并拷贝jar包：

hadoop fs -mkdir /spark-history
hadoop fs -mkdir /spark-jars
hadoop fs -put /opt/spark/jars/* /spark-jars

在hive/conf/hive-site.xml中增长：（这里特意延长了hive和spark链接的时间，能够有效避免超时报错）

<!--Spark依赖位置-->
<property>
    <name>spark.yarn.jars</name>
    <value>hdfs://hadoop01:9820/spark-jars/*</value>
</property>
  
<!--Hive执行引擎-->
<property>
    <name>hive.execution.engine</name>
    <value>spark</value>
</property>

<!--Hive和spark链接超时时间-->
<property>
    <name>hive.spark.client.connect.timeout</name>
    <value>100000ms</value>
</property>

而后启动spark服务，hive服务，并进入hive客户端，执行hql：

set hive.exec.mode.local.auto=true;

create table visit(user_id string,shop string) row format delimited fields terminated by '\t';

load data local inpath '/opt/hive/datas/user_id' into table visit;

SELECT t1.shop,
       t1.user_id,
       t1.count,
       t1.rank
FROM
  (SELECT shop,
          user_id,
          count(user_id) COUNT,
          rank() over(partition BY shop ORDER BY count(user_id) DESC) rank
   FROM visit
   GROUP BY user_id,
            shop
   ORDER BY shop ASC, COUNT DESC ) t1
WHERE rank <4;

spark引擎成功启动：

若是有其余问题，欢迎叨扰：