1,下载Scala 2.10.4,具体下载地址:apache
http://www.scala-lang.org/download/2.10.4.html bash
在Ubuntu机器上Scala会帮助咱们自动选择“scala-2.10.4.tgz”进行下载;分布式
2,安装和配置Scalaoop
咱们须要在SparkMaster、SparkWorker1以及SparkWorker2上分别安装Scala,Scala的安装和配置具体参考 :Spark实战高手之路-第一章 第三步spa
http://down.51cto.com/data/1748148 scala
在每台机器上安装完成后能够进行一下验证:htm
3,下载Spark 1.0.2,具体下载地址:进程
http://www.apache.org/dyn/closer.cgi/spark/spark-1.0.2/spark-1.0.2-bin-hadoop2.tgzhadoop
4,在SparkMaster上安装和配置Spark 1.0.2集群
把下载后“spark-1.0.2-bin-hadoop2.tgz”解压到“/usr/local/spark”目录之下:
配置“~/.bashrc”,设置“SPARK_HOME”并把Spark的bin目录加入到PATH之中,配置完成后使用source命令使配置生效。
进入spark的conf目录:
第一步修改slaves文件,首先打开该文件:
咱们把slaves文件的内容修改成:
第二步:配置spark-env.sh
首先把spark-env.sh.template 拷贝到spark-env.sh:
打开“spark-env.sh”文件:
修改后的配置文件的内容以下所示:
5,SparkWorker1和SparkWorker2采用和SparkMaster彻底同样的Spark安装配置,在此再也不赘述。
6,启动Spark分布式集群并查看信息。
第一步:启动Hadoop集群,在SparkMaster使用jps命令,具体操做过程当中能够看到以下进程信息: