参考了https://blog.csdn.net/m0_37937917/article/details/81159193html
预装环境:java
一、安装了Anaconda ,能够从清华镜像下载。python
二、环境安装了java,版本要7以及更高版本git
在前面的环境前提下github
开始下载安装pyspark
下载 Apache Spark ,访问 Apache Spark 官网下载shell
一、 选择一个 Spark 版本 (Choose a Spark release)apache
二、选择软件包类型 (Choose a package type)windows
三、点击下载oop
四、选择一个开始下载,只是镜像位置不同而已,内容无差spa
通常选择最新版本就行,也就是默认选择版本
ps:这边有个我直接下载好的,须要能够直接点击连接下载
五、将你下载获得的 spark-2.4.3-bin-hadoop2.7.tgz 解压,获得 spark-2.4.3-bin-hadoop2.7
我这边下载下来的文件名是这样的,根据实际为准。
将解压下来的 spark-2.4.3-bin-hadoop2.7 文件夹放到你想放的位置,我这边是 E:\MyDownloads\pyspark
6 . 从连接下载 winutils.exe 并放到你电脑中的 spark-2.4.3-bin-hadoop2.7\bin 文件夹下。
winutils.exe 是用来在windows环境下模拟文件操做的。
七、修改环境变量
添加如下变量到你的环境变量:
变量名 变量值
-
SPARK_HOME spark-2.4.3-bin-hadoop2.7
HADOOP_HOME spark-2.4.3-bin-hadoop2.7
PYSPARK_DRIVER_PYTHON jupyter
PYSPARK_DRIVER_PYTHON_OPTS notebook
-
- 添加 ;E:\MyDownloads\pyspark\spark-2.4.3-bin-hadoop2.7\bin 到 PATH ps:这里的路径以你的实际为准
此时安装已经基本完成了
8 、打开 cmd,输入命令行 spark-shell ,看到以下字样,说明安装成功
pyspark 案例实验一下
打开cmd ,输入 jupyter notebook 启动
新建个python文件,而后
输入如下代码,点运行
代码:
import os import sys spark_name = os.environ.get('SPARK_HOME',None) if not spark_name: raise ValueErrorError('spark环境没有配置好')
接着输入如下代码,点运行
sys.path.insert(0,os.path.join(spark_name,'python')) sys.path.insert(0,os.path.join(spark_name,'python/lib/py4j-0.10.7-src.zip')) exec(open(os.path.join(spark_name,'python/pyspark/shell.py')).read())
这样说明pyspark引入成功了!
报错处理:
若是出现 没法加载 pyspark ,提示错误:No module named 'pyspark' 。
缘由是: Anaconda 的环境变量中没有加入 pyspark 。
解决方案:将目录 spark-2.4.3-bin-hadoop2.7\python 中 spark 文件夹复制放入目录 Anaconda3\Lib\site-packages 中。(你安装Anaconda的地方)
建立RDD实例试验
myRDD = sc.parallelize(range(6), 3) print(myRDD.collect()) print(myRDD.count())
自此,安装pyspark 成功结束,欢迎指教,欢迎交流讨论
原文出处:https://www.cnblogs.com/Alear/p/11413091.html