最近在学习大数据相关的知识,在本身的笔记本上搭建了spark环境,本文是记录了此次搭建环境中的步骤,若有问题,欢迎指正。html
spark下载网站 http://spark.apache.org/downl...
在上述网站上找到 Download Spark: spark-x.x.x-bin-hadoopx.x.tgz 点击便可下载最新版本的spark,也能够选择老的版本。python
hadoop镜像网站 http://www.apache.org/dyn/clo...
在这个网站上选择一个镜像网站,例如 http://mirrors.hust.edu.cn/ap...
而后在对应的hadoop版本号下,选择hadoop-x.x.x.tar.gz下载解压,通常这个要与spark下载时文件名上的hadoop的版本一致。github
这个软件是为了是hadoop能够兼容在windows下运行,在github上能够找到不少。这是我下载用过的网址shell
- win32版本 https://github.com/andygoldsm...
- win64版本 https://github.com/stevelough...
版本好要和本身下载的hadoop版本的hadoop版本对应,下载解压后到 bin/ 目录下执行winutils.exe chmod -R 777 C:/tmp/hive 便可,盘符可换。apache
解压上述下载的文件到对应目录后,而后配置环境变量,下面的是个人配置 SCALA_HOME : C:\Program Files (x86)\scala2.11.7; JAVA_HOME : C:\Program Files\Java\jdk1.8.0_51 HADOOP_HOME : C:\Hadoop\winutils-master\hadoop-2.7.1 SPARK_HOME : C:\Hadoop\spark-2.2.0-bin-hadoop2.7 PATH : %JAVA_HOME%\bin;%SCALA_HOME%\bin;%HADOOP_HOME%\bin;%SPARK_HOME%\bin
在命令行下运行spark-shell,这样就进入了scala语法的spark-shell。windows
须要将下载后的spark目录下的./python/pyspark复制到python安装目录下的./Lib/site-packages目录下,而后就能够在python代码中import pyspark了,固然也能够在命令行下执行pyspark直接进入python版本的spark-shelloop