spark本地模式和Standalone配置

  • local模式很是适合做业的开发调试,配置也很简单,把编译好的文件解压,而后配置便可使用。
使用本身编译产生的tgz压缩包
  步骤:
   前提:安装Scala(2.10.4)和JDK(1.7.x+)
 - 解压
    ln -s spark-1.6.0-bin-2.5.0/ spark
 - 修改相关参数
    到/spark/conf目录下修改文件
    vim spark-env.sh
   JAVA_HOME=/opt/modules/java
   SCALA_HOME=/opt/modules/scala
   HADOOP_CONF_DIR=/opt/cdh-5.3.6/hadoop/etc/hadoop
   SPARK_LOCAL_IP=你的主机名
    3. 启动HDFS
      start-dfs.sh
    4. 测试
   ./spark-shell
  • Standalone模式
Standalone模式是Spark自身管理资源的一个模式,相似Yarn
  Yarn的结构:
    ResourceManager: 负责集群资源的管理
    NodeManager:负责当前机器的资源管理
      CPU&内存
  SparkStandalone的结构:
    Master: 负责集群资源管理
    Worker: 负责当前机器的资源管理
      CPU&内存
  配置安装:
    前提1:基于Local模式下的进行修改安装
    前提2:全部机器以及完成SSH免密码登陆
        1. 修改spark-env.sh
      vim spark-env.sh
        SPARK_MASTER_IP=hadoop02-linux.alibaba.com
        SPARK_MASTER_PORT=7070
        SPARK_MASTER_WEBUI_PORT=8080
        SPARK_WORKER_CORES=3 ## 一个work分配的cpu数量
        SPARK_WORKER_MEMORY=3g ## 一个work分配的内存数量
        SPARK_WORKER_PORT=7071
        SPARK_WORKER_WEBUI_PORT=8081
        SPARK_WORKER_INSTANCES=2 ## 一台机器容许同时存在的work的数量
    2. 修改slaves.template,给定work节点的hostname
      mv slaves.template slaves
      vim slaves ## 一行一个hostname
    3. 启动服务
      sbin/start-all.sh
      日志位于:spark/logs文件夹中

master UI
日志文件,主节点和work节点每一个节点都有日志文件
这里写图片描述