JDK: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlhtml
Hadoop2.6.5:http://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/java
Scala2.11.8:https://www.scala-lang.org/download/all.htmlgit
Spark2.2.0:http://archive.apache.org/dist/spark/spark-2.2.0/github
安装测试apache
java -version
出现以下图表明安装成功。windows
其余环境变量设置:oracle
PATH:C:\Program Files\Java\jdk1.8.0_191\bin; CLASS_PATH :C:\Program Files\Java\jdk1.8.0_191\lib\dt.jar;C:\Program Files\Java\jdk1.8.0_191\lib\tools.jar; JAVA_HOME :C:\Program Files\Java\jdk1.8.0_191 #这里后面不能有任何一个符号,我找错找了一下午,重装了 这几个包 又从新配置环境变量 真的是心累!!!!! hadoop会一直报JAVA_HOME不正确 JRE_HOME :C:\Program Files\Java\jdk1.8.0_191\jre
点开scala安装下载地址,下载windows版本便可,进行解压,将他放到 你本身的文件路径下。svg
环境变量设置oop
PATH : C:\Program Files\scala-2.12.0\bin; SCALA_HOME :C:\Program Files\scala-2.12.0
安装测试:
点开spark安装下载地址,下载须要版本便可,进行解压,将他放到 你本身的文件路径下。
环境变量设置
HADOOP_PATH:C:\Program Files\hadoop-2.7.6 PATH:C:\Program Files\hadoop-2.7.6\bin;
安装测试
点开spark安装下载地址,下载须要版本便可,进行解压,将他放到 你本身的文件路径下。
环境变量设置
SPARK_HOME:C:\Program Files\spark-2.4.0-bin-hadoop2.7 PATH:C:\Program Files\spark-2.4.0-bin-hadoop2.7\bin;
安装测试
千万注意环境变量中的逗号 要不要打 这个错找了一天!!!!!
这里报错了,根据报错显示:咱们去下载相应文件。
那么请找到你的hadoop\bin目录找下里面有没有winutils.exe文件,若是没有的话,咱们须要去下载。
下载地址为:https://github.com/steveloughran/winutils
将下载的文件放入到你的hadoop安装路径下的bin下便可,从新运行
这里又报异常,咱们还须要一个文件,hadoop.dll文件,就在前面的地址里,跟winutils 在同一目录下,下载相应版本的hadoop.dll.
再从新运行:
在你运行pyspark时。没有任何错误 ,但是当你输入脚本运行的时候,就会报异常。以下所示:
这是由于pyspark的版本太高的问题,咱们能够再去网站上从新下一个2.2或者2.3版本便可。