Spark集群部署

时间 2019-11-17

标签 spark 集群部署栏目 Spark 繁體版

原文原文链接

Spark集群部署 apache

本次博文转发了超图研究所的技术博文，但愿对各位Spark技术研究者有用。 vim

第一步：安装软件
        Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz
        Hadoop 2.6.3:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz
        scala :apt-get install scala
第二步：配置环境变量
        执行/etc/profile
        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80
        export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/BIN:${SCALA_HOME}/bin:${SPARK_HOME}/bin:/home/supermap/program/hadoop-2.6.3/bin:$PATH
        export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
        export SCALA_HOME=/usr/lib/scala/scala-2.11.7
        export PATH=${SCALA_HOME}/bin:$PATH
        export SPARK_HOME=/program/spark-1.5.2-bin-hadoop2.6
        source /etc/profile
第三步：建立镜像
        经过OpenStack管理器根据配置好的虚拟机建立镜像，生成的镜像配置以下：
        镜像概况信息

        ________________________________________
        名称        spark-hadoop
        ID            61055db5-598b-4f1a-98fa-d2cbbf305d0c
        状态        Active
        公有        False
        受保护的        False
        校验和        47acf7993101713aee17764802602941
        ________________________________________
        配置              4.4 GB
        容器格式        BARE
        磁盘格式        QCOW2
        最小磁盘        60.0GB

第四步：建立虚拟机
        基于建立的镜像，生成2台虚拟机，加上最开始用于建立镜像的1台，一共3台虚拟主机，名称分别为：
        spark_hadoop_master
        spark_hadoop_slave1
        spark_hadoop_slave2
        下面就能够开始作与建立Spark集群相关的操做了。
第五步：设置主机名
        1.在/etc/hostname中就改主机名，分别设置三台主机为master、slave一、slave2，并重启
           ssh

        2.重启以后，分别设置三个节点etc/hosts，指定ip和主机名的对应关系。

        经过测试root @master :~# ssh slave1，在输入root用户密码后能够登陆。
第六步：修改ssh无密码访问
        首先开启root用户访问权限
        1. 修改/etc/ssh/sshd-config文件，设置以下：
        2. PermitRootLogin yes
        3. PubkeyAuthentication yes
        4. PasswordAuthentication yes
        从新启动ssh服务：service ssh restart
        再进行以下测试，能够免输入密码登陆了。

第七步：配置Spark集群
        进入Spark的conf目录：
          jvm

把spark-env.sh.template拷贝为spark-env.sh
把slaves.template拷贝为slaves oop

vim打开spark-env.sh修改其中的内容，加入如下设置测试

        export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80
        export SPARK_MASTER_IP=192.168.12.154
        export SPARK_WORKER_MEMORY=4g
        export SCALA_HOME=/usr/lib/scala/scala-2.11.7
        export HADOOP_CONF_DIR=/home/supermap/program/hadoop-2.6.3/conf lua

        SPARK_WORKER_MEMORY：制定的Worker节点可以最大分配给Excutors的内存大小，因为配置的虚拟机是4g内存，为了最大限度使用内存，这里设置4G。
        接下来配置slaves文件，把Workers节点都添加进去：

        这种配置把master也做为一个Worker节点。 spa

以上配置在master和slave1，slave2节点都作相同处理。 .net

第八步：启动集群
        这里测试没有启动Hadoop集群，只须要Spark集群进行启动便可，在Spark目录下，运行sbin/start-all.sh便可启动集群服务。

        最后经过访问spark管理页面查看服务状态
          scala

转载自：http://blog.csdn.net/chinagissoft/article/details/50559774