Windows下安装Spark

时间 2019-11-21

标签 windows 安装 spark 栏目 Windows 繁體版

原文原文链接

建立系统变量 SCALA_HOME为C:\Program Files (x86)\scala，而后添加%SCALA_HOME%\bin到系统PATH变量中java

而后打开cmd窗口，运行scala，你应该看到以下信息git

2. 安装JDK，下载连接，http://www.oracle.com/technetwork/java/javase/downloads/index.html， spark2.2要求jdk8,因此下载github

建立系统变量JAVA_HOME为C:\Program Files\Java\jdk1.8.0_144，而后添加%JAVA_HOME%\bin到系统PATH变量中shell

建立系统变量CLASSPATH，内容为%JAVA_HOMT%\lib;%JAVA_HOMT%\lib\tools.jar;apache

打开cmd窗口，输入 java -version,oracle

点击第4步的连接下载，以后把里面的内容解压缩到C:\Spark文件夹中，oop

建立系统变量SPARK_HOME，内容为C:\Spark\，添加%SPARK_HOME%\bin 和 %SPARK_HOME%\sbin到系统变量PATH中spa

4. 安装hadoop winutils，下载连接https://github.com/steveloughran/winutils，选择你要的hadoop版本号，好比2.8.1，你只须要下载winutils.exe，而后拷贝到C:\Hadoop\bin文件夹中。

建立系统变量HADOOP_HOME，为C:\Hadoop，添加%HADOOP_HOME%\bin到PATH变量中

5. 以管理员身份打开cmd，运行spark-shell，若是遇到访问权限等错误的话，运行 winutils.exe chmod 777 C:\tmp\hive

6. 以管理员身份打开cmd，运行spark-shell，你应该看到以下界面

最重要的，你要看到Spark context available as 'sc' (master = local[*], app id = local-1507235397368).字样

7. spark hello world example

在Scala>提示符后依次输入运行

val textFile = sc.textFile("file:///Spark/README.md")

val tokenizedFileData = textFile.flatMap(line=>line.split(" "))

val countPrep = tokenizedFileData.map(word=>(word,1))

val counts = countPrep.reduceByKey((accumValue, newValue)=>accumValue+newValue)

var sortedCounts = counts.sortBy(kvPair=>kvPair._2,false)

打开C盘，你应该看到SparkOutputData文件夹，里面有ReadMeWordCount文件夹，里面的内容为

查看文件part-00000和part-00001，里面就是各个单词在README.md文件中出现的次数。