【大数据处理架构】1.spark streaming

1. spark 是什么?html

>Apache Spark 是一个相似hadoop的开源高速集群运算环境  与后者不一样的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI ,R API接口.并且提tools:Spark SQL for SQL 处理结构化数据, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.java



2. spark streaming sql

Spark Streaming: 构建在Spark上处理Stream数据的框架,主要的原理是将Stream数据分红小的时间片段(几秒),以相似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟运行引擎(100ms+),尽管比不上专门的流式数据处理软件。也可以用于实时计算,还有一方面相比基于Record的其余处理框架(如Storm)。一部分窄依赖的RDD数据集可以从源数据又一次计算达到容错处理目的。docker




3. build spark: shell

    1) 安装 scala apache

          scala 语言很是简洁,属于函数式语言。其简洁度使人惊讶(代码量仅仅有java的十分之中的一个)值得学习。vim

         http://www.scala-lang.org/download/框架

          下载,解压 :tar -zxvf filename  loactionide

          改动环境变量:vim /etc/profile  在PATH后增长scala解压后文件位置。函数

           >  export SCALA_HOME = $/opt/scala/scala-2.11.7

           >  export SPARK_HOME=$opt/spark/spark-1.4.1
           >  export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

                        

           update( very important or you may failed to change the path)  > source /etc/profile

          检測:  scala -version

2)安装 spark streaming

         下载这个版本号: spark-1.4.1-bin-hadoop2.6.tgz   (必定不要选source code 需要本身编译)

http://spark.apache.org/downloads.html

          解压: tar -zxvf filemname location  (文件名称太长善用 tab键)

3)几个命令 

启动Spark

在Spark执行以前,首先需要让Spark集群启动,假设需要用到hadoop的HDFS的话,也需要把HDFS启动起来。

>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin (注意依据本身的安装文件夹定)
       ./stop-master.sh
    以及   ./start-master.sh
>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin; 
     ./stop-slave.sh; 
     ./start-slave.sh spark://XXXXX
>bin/spark-shell.sh   启动spark shell

 在SPARK_HOME/sbin文件夹:

  • sbin/start-master.sh-在机器上运行脚本。启动 master .
  • sbin/start-slaves.sh- 启动conf/slaves中指定的每一个slave .
  • sbin/start-all.sh- 同一时候启动master 以及 上面所说文件里指定的slave
  • sbin/stop-master.sh- 中止经过bin/start-master.sh脚本启动的master
  • sbin/stop-slaves.sh- 中止经过bin/start-slaves.sh启动的slave .
  • sbin/stop-all.sh- 中止上述的两种启动脚本启动的master和slave
执行:
    想在想在spark上跑本身的代码,需要咱们打包成jar ,使用 spark-streaming的命令。但是需要用到sbt的tool,咱们下一节再介绍。
參考:1. http://spark.apache.org/docs/latest/index.html
2. http://blog.csdn.net/yunlong34574/article/details/39098815
3.http://www.oschina.net/translate/spark-standalone?cmp
相关文章
相关标签/搜索