spark伪分布式安装与测试

时间 2019-11-15

标签 spark 分布式安装测试栏目 Spark 繁體版

原文原文链接

一、下载scala2.11.5版本，下载地址为： http://www.scala-lang.org/download/2.11.5.html 二、安装和配置scala：第一步：上传scala安装包并解压

第二步配置SCALA_HOME环境变量到bash_profile

第三步 source 使配置环境变量生效：

第四步验证scala：

三、下载spark 1.2.0，具体下载地址： http://spark.apache.org/downloads.html 四、安装和配置spark：第一步解压spark：

第二步配置SPARK_HOME环境变量：

第三步使用source生效：

进入spark的conf目录：第四步修改slaves文件，首先打开该文件：

slaves修改后：

第五步配置spark-env.sh 首先把spark-env.sh.template拷贝到spark-env.sh：

而后打开“spark-env.sh”文件：

spark-env.sh文件修改后：

五、启动spark伪分布式帮查看信息：第一步先保证hadoop集群或者伪分布式启动成功，使用jps看下进程信息：

若是没有启动，进入hadoop的sbin目录执行 ./start-all.sh 第二步启动spark：进入spark的sbin目录下执行“start-all.sh”：

此刻咱们看到有新进程“Master” 和"Worker" 咱们访问“http://master:8080/”，进如spark的web控制台页面：

从页面上能够看到一个Worker节点的信息。咱们进入spark的bin目录，使用“spark-shell”控制台：

经过访问"http://master:4040"，进入spark-shell web控制台页面：

六、测试spark伪分布式：咱们使用以前上传到hdfs中的/data/test/README.txt文件进行mapreduce 取得hdfs文件：

对读取的文件进行一下操做：

使用collect命令提交并执行job： readmeFile.collect

查看spark-shell web控制台：

states：

端口整理： master端口是7077 master webui是8080 spark shell webui端口是4040