一、下载版本对应的spark和hadoop,以下:python
二、配置Sparkgit
解压Spark并配置环境变量,github
新建环境变量以下:oop
在Path中增长以下环境变量: spa
三、配置hadoop相关变量,code
四、下载hadoop组件,并进行配置(winutils )blog
下载地址:https://github.com/srccodes/hadoop-common-2.2.0-binip
将下载好的组件解压放到hadoop_home的bin目录下,不进行文件替换hadoop
五、验证是否安装成功,打开cmd执行pyspark,成功以下:get
六、配置pycharm,安装pycharm,此处再也不详细描述
七、为pycharm安装 pyspark组件,file—>settings—>Project Interpreter
安装组件pyspark
八、配置,环境,run—>Edit Configurations add Python,以下
而后配置以下:
SPARK_HOME : D:\hadoop\spark-2.3.0-bin-hadoop2.7
HADOOP_HOME : D:\hadoop\hadoop-2.9.0
PYTHONPATH : D:\hadoop\spark-2.3.0-bin-hadoop2.7\python\lib\py4j-0.10.6-src.zip
九、而后就ok了