转载地址:http://jingpin.jikexueyuan.com/article/47043.htmlhtml
本文先叙述如何配置eclipse中maven+scala的开发环境,以后,叙述如何实现spark的本地运行。最后,成功运行scala编写的spark程序。git
刚开始个人eclipse+maven环境是配置好的。github
系统:win7shell
eclipse版本:Luna Release(4.4.0)apache
maven是从EclipseMarket中安装的,如图1。windows
当初构建eclipse+maven环境时,仅仅安装了第一个。架构
这里能够先不用急着安装maven,下面在安装maven for scala时,也提供了maven for eclipse。eclipse
图1-eclipse安装的m2e插件maven
图2-eclipse安装Scala IDEoop
如图3,图中的url是:http://alchim31.free.fr/m2e-scala/update-site/
从图3中搜索到的插件名称中能够看到,这里同时也配置了m2e,也即eclipse须要的maven插件。若是eclipse没有eclipse插件,则能够所有选中安装;若已经有了能够单独安装第三个Maven Integration for Scala IDE。
安装完成了MavenIntegration for Scala IDE以后,再输入上面的url,可安装列表里就没有Maven Integration for Scala IDE这一项了。
(PS:此处我是将MavenIntegration for Scala IDE卸载了以后从新截图的)
(PS:若是再看图1,除了第一个MavenIntegration for Eclipse(Luna and newer)1.5以外,还有一个MavenIntegration for Eclipse(Luna)1.5.0,。这是我在使用上述 url安装m2e-scala时,没有注意其中还包含了MavenIntegration for Eclipse,致使安装了两个版本的Maven Integration for Eclipse)
(PS:虽然我已经安装上述url中的MavenIntegration for Eclipse,而且并无卸载,而图3中依然显示了Maven Integration for Eclipse的选项,是由于其版本有了更新。能够从其中看到其最新的版本是1.5.1,此时若继续安装该Maven Integration for Eclipse,则是对版本进行更新。)
(PS:图1中还有一个MavenIntegration for Eclipse WTP(Juno)1.0.1暂时不知道是怎么安装上去的)
图3-安装m2e-scala
新建一个名为Scala Project,右键工程添加一个名为test的Scala Object,代码以下:
package test object test { def main(args : Array[String]) { println("hello world") } }
最终如图四、5所示。
图4-新建scalaproject
、
图5-scala工程目录
右键test.scala,Run as…-> Scala Application,在终端成功输出了hello world。
从图5中能够看到,咱们安装的ScalaIDE中自带的scala版本是2.11.5的。
(PS:若是不在终端以命令行的形式使用scala的话,彷佛能够不用单独下载scala包并设置环境变量)
原本新建一个scala+maven的流程能够是这样的,如图6所示。
新建maven工程,不勾选Createa simple project,选择与scala有关的archetype。
eclipse的archetype是一种模板,给人的感受就是其中的目录架构及相关文件(好比说pom.xml)都是按照某种模式(如scala maven)构造好的。若是选择如图6中的1.2版本的scala相关archetype,则新建的maven工程就有了scala maven工程的目录结构,pom.xml也是配置好的,而且还有几个scala的代码文件。
可是,有一些错误,编译没法经过。我想,这主要是由于scala的版本问题,从工程中的pom.xml中能够看到,这个模板是基于scala 2.7.0构建的。而咱们安装的scala IDE是基于scala 2.11.5。
图6-新建scala maven工程
scala的新版本对老版本的兼容彷佛并很差。这里能够本身修正pom.xml文件,不过估计代码可能也要修改。
我这里是从git上下载了一个现成的基于scala2.11.5的maven工程。
git网址:https://github.com/scala/scala-module-dependency-sample
使用git clone下来以后,在eclipse中导入maven工程(maven-sample)。
从其pom.xml中能够看到,是基于scala-2.11.5的。其中只有一个代码文件,便是XMLHelloWorld.scala。只要可以顺利的拉取到pom.xml中的依赖包,就能够直接右键XMLHelloWorld.scala, Run as -> Scala Application。
至此,ecipse+scala+maven就搭建好了。接下来配置spark的本地运行环境。
这里我是在maven-sample工程的基础上配置spark的。
在pom.xml中添加spark-core。
<dependency> <groupId>org.Apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>1.2.1</version> </dependency>
在default package中添加scala object – SimpleApp。代码以下:
/* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val logFile = "test.txt" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application").setMaster("local[2]") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) } }
此时,编译已经经过了,可是若是Run as–> Scala Application的话,会有ClassDefNotFound的异常。
这是由于spark-core其实须要依赖不少其余的jar包来运行,但这些包在spark-core包中并无,而且在咱们的classpath中也没有。
咱们能够方便的从在线maven库里找到spark-core包。
图7-spark-core
咱们点击后面的pom连接,能够看到spark-core的pom.xml文件,其中依赖的包不少。
将其中全部的dependency拷贝到咱们的maven-sample工程的pom.xml中。从新build工程的时候,须要下载不少包,可能须要很长时间。
(PS:从spark-core的pom.xml文件中能够很直观看到的是,其中org.scala-lang.scala-library组件咱们本来已经有了,不过版本稍有不一样,能够删掉,也可不删。)
其实,也可本身根据ClassDefNotFound的提示一步步本身添加依赖包,不过,须要添加的可很多。
而且,由于spark-core依赖的众多包,又依赖了其余的包。因此,你可能在根据ClassDefNotFound异常添加依赖包的过程当中,发现一些Class所依赖的包在spark-core的pom.xml文件中并未看到。这是由于它们存在于spark-core的依赖包的依赖包中。并且,spark-core的依赖包所依赖的包,还有些版本的冲突,手动添加的过程当中,可能还会遇到MethodNotFound的错误。
最简单的方法就是将全部的依赖拷贝过来。
如今,咱们先在工程目录下配置test.txt文件。
图8-添加test.txt文件
文件内容以下:
a b c ab abab d
右键SimpleApp.scala,Run as -> Scala Application,发现打了不少日志。
我也只明白最后一行。
Lineswith a: 3, Lines with b: 3
是spark程序运行的正确输出。
可是能够看到日志中仍是有一条异常。
图9-hadoop异常
这条异常彷佛并不影响程序的正确运行,不过仍是先考虑将该异常解决掉。
有关这个异常能够参考
http://www.srccodes.com/p/article/39/error-util-Shell-failed-locate-winutils-binary-hadoop-binary-path
这个网页的主体内容很简短,意思就是hadoop2.2.0的发布版本对windows的支持并很差。网页中提供了“Build, Install, Configure and Run Apache Hadoop 2.2.0 in MicrosoftWindows OS”的连接,也提供了现成的编译好的包。
我是直接将包下载下来,在工程目录下按照异常提示创建了null/bin目录,并将下载包中的全部文件拷贝进了null/bin目录。
图10-bin目录
接下来,再运行SimpleApp程序,就没有异常了。
可是,这种方法是否本质上解决了该异常就不知道了。由于我发现,即便手动随便建一个null/bin/winutils.exe文件,只要路径及文件名相同,也能够消除上述有关hadoop2.2.0的异常。