一、Java下Spark开发环境搭建html
1.一、jdk安装java
安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.7.0_79”,视本身安装路劲而定。python
同时在系统变量Path下添加C:\Program Files\Java\jdk1.7.0_79\bin和C:\Program Files\Java\jre7\bin。apache
1.2 spark环境变量配置编程
去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6windows
解压下载的文件,假设解压 目录为:D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6oracle
1.3 hadoop工具包安装eclipse
spark是基于hadoop之上的,运行过程当中会调用相关hadoop库,若是没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行,可是这里仍是把hadoop相关库也配置好吧。python2.7
1.3.1 去下载hadoop 2.6,我下载的是hadoop-2.6.0.tar.gz,工具
1.3.2 解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.6.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.6.0,下载winutils的windows版本,将winutils.exe加入你的hadoop-x.x.x/bin下,把hadoop.dll放入从C:/wondwos/system32下面。
1.4 eclipse环境
直接新建java工程,将D:\spark-1.6.0-bin-hadoop2.6\lib下的spark-assembly-1.6.0-hadoop2.6.0.jar添加到工程中就能够了。
二、Python下Spark开发环境搭建
2.1 安装python,并添加到系统变量path中:C:\Python27和C:\Python27\Scripts
2.2 重复1.2和1.3步骤
2.3 将spark目录下的pyspark文件夹(D:\spark-1.6.0-bin-hadoop2.6\python\pyspark)复制到python安装目录C:\Python27\Lib\site-packages里
2.4 在cmd命令行下运行pip install py4j(首先得安装了pip)安装相关库。
注意:咱们在配置好环境变量后,在eclipse里进行编程,拿python为例,会报错:
File "test.py", line 10, in <module> conf=(SparkConf().setMaster('local').setAppName('a').setSparkHome('/home/dirk/spark-1.4.1-bin-hadoop2.6/bin')) File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/conf.py", line 104, in __init__ SparkContext._ensure_initialized() File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/context.py", line 229, in _ensure_initialized SparkContext._gateway = gateway or launch_gateway() File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/java_gateway.py", line 48, in launch_gateway SPARK_HOME = os.environ["SPARK_HOME"] File "/usr/lib/python2.7/UserDict.py", line 23, in __getitem__ raise KeyError(key) KeyError: 'SPARK_HOME'
这是由于eclipse并无获取到配置的环境变量,咱们能够经过
print os.getenv('SPARK_HOME')
检验,这时候咱们重启电脑就能够了;若是不想重启电脑,咱们能够经过
os.environ ['SPARK_HOME'] ='/home/dirk/spark-1.4.1-bin-hadoop2.6'
手动设置SPARK_HOME,这样咱们的程序就能够正常运行了。
参考:http://www.cnblogs.com/eczhou/p/5216918.html,我的作了一些修改