本地windows搭建spark环境,安装与详细配置(jdk安装与配置,scala安装与配置,hadoop安装与配置,spark安装与配置)

本地搭建spark环境,安装与详细配置

安装包下载地址:

JDK: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlhtml

Hadoop2.6.5:http://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/java

Scala2.11.8:https://www.scala-lang.org/download/all.htmlgit

Spark2.2.0:http://archive.apache.org/dist/spark/spark-2.2.0/github

  1. jdk安装与配置

    点开jdk安装下载地址,下载windows版本便可,进行安装。安装后将安装路径添加至环境变量中,具体操做以下图。web

在这里插入图片描述

安装测试apache

java -version

出现以下图表明安装成功。windows

在这里插入图片描述

其余环境变量设置:oracle

PATH:C:\Program Files\Java\jdk1.8.0_191\bin;
CLASS_PATH :C:\Program Files\Java\jdk1.8.0_191\lib\dt.jar;C:\Program Files\Java\jdk1.8.0_191\lib\tools.jar;
JAVA_HOME :C:\Program Files\Java\jdk1.8.0_191  #这里后面不能有任何一个符号,我找错找了一下午,重装了 这几个包 又从新配置环境变量 真的是心累!!!!! hadoop会一直报JAVA_HOME不正确
JRE_HOME :C:\Program Files\Java\jdk1.8.0_191\jre
  1. scala安装与配置

点开scala安装下载地址,下载windows版本便可,进行解压,将他放到 你本身的文件路径下。svg

环境变量设置oop

PATH : C:\Program Files\scala-2.12.0\bin;
SCALA_HOME :C:\Program Files\scala-2.12.0

安装测试:

在这里插入图片描述

  1. hadoop安装与配置

点开spark安装下载地址,下载须要版本便可,进行解压,将他放到 你本身的文件路径下。

环境变量设置

HADOOP_PATH:C:\Program Files\hadoop-2.7.6  
PATH:C:\Program Files\hadoop-2.7.6\bin;

安装测试

在这里插入图片描述

  1. spark安装与配置

点开spark安装下载地址,下载须要版本便可,进行解压,将他放到 你本身的文件路径下。

环境变量设置

SPARK_HOME:C:\Program Files\spark-2.4.0-bin-hadoop2.7
PATH:C:\Program Files\spark-2.4.0-bin-hadoop2.7\bin;

安装测试

在这里插入图片描述

千万注意环境变量中的逗号 要不要打 这个错找了一天!!!!!
这里报错了,根据报错显示:咱们去下载相应文件。
那么请找到你的hadoop\bin目录找下里面有没有winutils.exe文件,若是没有的话,咱们须要去下载。

下载地址为:https://github.com/steveloughran/winutils

将下载的文件放入到你的hadoop安装路径下的bin下便可,从新运行

在这里插入图片描述
这里又报异常,咱们还须要一个文件,hadoop.dll文件,就在前面的地址里,跟winutils 在同一目录下,下载相应版本的hadoop.dll.
再从新运行:
在这里插入图片描述
在你运行pyspark时。没有任何错误 ,但是当你输入脚本运行的时候,就会报异常。以下所示:
在这里插入图片描述 这是由于pyspark的版本太高的问题,咱们能够再去网站上从新下一个2.2或者2.3版本便可。