使用maven+eclipse构建spark项目

时间 2019-11-17

标签使用 maven+eclipse maven eclipse 构建 spark 项目栏目 Eclipse 繁體版

原文原文链接

1、构建spark项目html

1.参考以前构建scala项目的步骤，先构建一个scala项目。linux

2.而后再加入spark版本的依赖。apache

  <dependency>

     <groupId>org.apache.spark</groupId>

     <artifactId>spark-core_2.10</artifactId>

     <version>1.5.0</version>

 </dependency>

注意spark版本要和集群上spark版本对应。spark-core_2.10不能写成spark-core_2.11，后面的2.10是和你的scala版本对应上的。若是spark的版本是从scala2.11编译的，则要写2.11。编程

3.把jdk和scala版本改为spark依赖的版本windows

<properties>

    <maven.compiler.source>1.7</maven.compiler.source>

    <maven.compiler.target>1.7</maven.compiler.target>

    <encoding>UTF-8</encoding>

    <scala.version>2.10.4</scala.version>

    <scala.compat.version>2.10</scala.compat.version>

  </properties>

注意scala.version和scala.compat.version版本要改为相同的，不然maven编译会报错，编译不过去。api

4.spark程序代码以下：app

object SparkMain {

  def main(args : Array[String]) {

    var sparkConf = new SparkConf();

    sparkConf.setAppName("sparkTest").setMaster("spark://bigdata1:7077,bigdata2:7077");

    val sc = new SparkContext(sparkConf);

    sc.addJar("D:\\programs\\scala-SDK-4.1.1-vfinal-2.11-win32.win32.x86_64\\workspace\\SparkTest\\target\\SparkTest-0.0.1-SNAPSHOT.jar");

    val hdfsRdd = sc.textFile("hdfs://bigdata1:9000/data/stbcontent/0");

    val mapRdd = hdfsRdd.flatMap(mySplit);

    var result = hdfsRdd.flatMap(mySplit).count();
    
    mapRdd.saveAsTextFile("hdfs://bigdata1:9000/data/stbformat1");

    println(result);

    sc.stop();

  }

}

注意此处的drivering program就是安装eclipse的这台机器了，因此路径都是针对eclipse。若是打包到集群上跑，那么路径就变成了linux那台机器了。因此咱们查看4044端口的时候，就是window这台机器的ip了。eclipse

若是直接跑在本地windows下，须要添加hadoop的环境，添加完了以后，你就能够在windows上直接跑spark程序了，则spark代码以下：maven

object SeeSource {
  def main(args: Array[String]): Unit = {
    var sparkConf = new SparkConf();
    sparkConf.setAppName("seeSource").setMaster("local[2]");
    val sc = new SparkContext(sparkConf);
    println("aa");
    sc.stop();
  }
}

参考：在Eclipse上运行Spark(Standalone,Yarn-Client)

2、问题汇总

1.java.util.concurrent.RejectedExecutionException: Task java.util.concurrent.FutureTask@d919109 rejected from java.util.concurrent.ThreadPoolExecutor@7b42ce0a

将sparkConf.setMaster里面master ip改为hostName，这样就不会出现这个错误了，以下：

sparkConf.setMaster("spark://bigdata1:7077,bigdata2:7077");

参考： java远程调用 spark服务出错

2.java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

scala ide编译spark程序使用的scala版本和spark集群上的scala版本不一致。解决方法就是更改scala ide所使用的scala 版本

首先新增符合要求的scala版本，以下：

而后项目右键，选择scala compiler，选择刚刚新增的scala版本

参考：运行第一个SparkStreaming程序（及过程当中问题解决）

3.java.lang.ClassNotFoundException: com.bigdata.test22.SparkTest$$anonfun$1

出现这个错误是spark standalone集群中，咱们运行的类在worker节点没有，因此worker节点就会报找不到类这个错误，须要将咱们的spark程序打包放到集群的每一个节点上，而后在sparkConf加上以下代码：

sparkConf.addJar("D:\\programs\\scala-SDK-4.1.1-vfinal-2.11-win32.win32.x86_64\\workspace\\SparkTest\\target\\SparkTest-0.0.1-SNAPSHOT.jar");

注意，通常咱们使用ide来测试spark的话，若是是在linux编程，ide和spark在同一个节点上，那么使用sparkConf.setMaster("local[2]")，只在一台机器上跑，就不存在找不到类的问题了。

spark java api经过run as java application运行的方法