hadoop+hive+spark搭建（三）

时间 2019-12-11

标签 hadoop+hive+spark hadoop hive spark 搭建栏目 Hadoop 繁體版

原文原文链接

1、spark安装

　　由于以前安装过hadoop，因此，在“Choose a package type”后面须要选择“Pre-build with user-provided Hadoop [can use with most Hadoop 　　distributions]”，而后，点击“Download Spark”后面的“spark-2.1.0-bin-without-hadoop.tgz”下载便可。Pre-build with user-provided Hadoop: 　　属于“Hadoop free”版，这样，下载到的Spark，可应用到任意Hadoop 版本。　　python

　　上传spark软件包到任意节点上

　　解压缩spark软件包到/usr/local/目录下

　　重命名为spark文件夹

　　　　 mv spark-2.1.0-bin-without-hadoop/ sparkweb

　　重命名conf/目录下spark-env.sh.template为spark-env.sh

　　　　cp spark-env.sh.template spark-env.shshell

　　重命名conf/目录下slaves.template为slaves

　　　　mv slaves.template slaves app

2、配置spark

　　　编辑conf/spark-env.sh文件，在第一行添加如下配置信息:

　　　　　　export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)分布式

　　　　　　＃上述表示Spark能够把数据存储到Hadoop分布式文件系统HDFS中，也能够从HDFS中读取数据。若是没有配置上面信息，Spark就只能读写本地数据，没法读写HDFS数据。ide

　　　　　　export JAVA_HOME=/usr/local/jdk64/jdk1.8.0oop

　　　编辑conf/slaves文件

3、验证spark是否安装成功

　　在spark目录中输入命令验证spark是否安装成功

　　　　　　bin/run-example SparkPiui

　　　　　　bin/run-example SparkPi 2>&1 | grep "Pi is"　　　　　　　　#过滤显示出pi的值url

　　　　web界面为8080端口spa

　　集群模式下shell

　　　pyspark --master spark://master:7077　　　　#python

　　提交应用

　　　　spark-submit

　　　　　　--class <main-class> 　　　　　　　　#须要运行的程序的主类，应用程序的入口点
　　　　　　--master <master-url> 　　　　　　　#Master URL，下面会有具体解释
　　　　　　--deploy-mode <deploy-mode> 　　 #部署模式
　　　　　　... # other options 　　　　　　　　　 #其余参数
　　　　　　<application-jar> 　　　　　　　　　 #应用程序JAR包
　　　　　　[application-arguments]　　　　　　 #传递给主类的主方法的参数

hadoop+hive+spark搭建（三）

1、spark安装

上传spark软件包到任意节点上

解压缩spark软件包到/usr/local/目录下

重命名为spark文件夹

重命名conf/目录下spark-env.sh.template为spark-env.sh

重命名conf/目录下slaves.template为slaves

2、配置spark

编辑conf/spark-env.sh文件，在第一行添加如下配置信息:

编辑conf/slaves文件

3、验证spark是否安装成功

在spark目录中输入命令验证spark是否安装成功

集群模式下shell

pyspark --master spark://master:7077 #python

提交应用

　　上传spark软件包到任意节点上

　　解压缩spark软件包到/usr/local/目录下

　　重命名为spark文件夹

　　重命名conf/目录下spark-env.sh.template为spark-env.sh

　　重命名conf/目录下slaves.template为slaves

　　　编辑conf/spark-env.sh文件，在第一行添加如下配置信息:

　　　编辑conf/slaves文件

　　在spark目录中输入命令验证spark是否安装成功

　　集群模式下shell

　　　pyspark --master spark://master:7077　　　　#python

　　提交应用