【大数据处理架构】1.spark streaming

时间 2019-11-08

标签大数据处理架构 1.spark spark streaming 栏目 Spark 繁體版

原文原文链接

1. spark 是什么？html

>Apache Spark 是一个相似hadoop的开源高速集群运算环境与后者不一样的是，spark更快（官方的说法是快近100倍）。提供高层JAVA,Scala,PythonI ,R API接口.并且提tools：Spark SQL for SQL 处理结构化数据, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.java

2. spark streaming sql

Spark Streaming: 构建在Spark上处理Stream数据的框架，主要的原理是将Stream数据分红小的时间片段（几秒），以相似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟运行引擎（100ms+），尽管比不上专门的流式数据处理软件。也可以用于实时计算，还有一方面相比基于Record的其余处理框架（如Storm）。一部分窄依赖的RDD数据集可以从源数据又一次计算达到容错处理目的。docker

3. build spark: shell

1）安装 scala apache

scala 语言很是简洁，属于函数式语言。其简洁度使人惊讶（代码量仅仅有java的十分之中的一个）值得学习。vim

http://www.scala-lang.org/download/框架

下载，解压：tar -zxvf filename loactionide

改动环境变量：vim /etc/profile 在PATH后增长scala解压后文件位置。函数

> export SCALA_HOME = $/opt/scala/scala-2.11.7

> export SPARK_HOME=$opt/spark/spark-1.4.1
> export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

update( very important or you may failed to change the path) > source /etc/profile

检測： scala -version

2）安装 spark streaming

下载这个版本号： spark-1.4.1-bin-hadoop2.6.tgz （必定不要选source code 需要本身编译）

http://spark.apache.org/downloads.html

解压： tar -zxvf filemname location （文件名称太长善用 tab键）

3）几个命令

启动Spark

在Spark执行以前，首先需要让Spark集群启动，假设需要用到hadoop的HDFS的话，也需要把HDFS启动起来。

>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin （注意依据本身的安装文件夹定）
./stop-master.sh
以及 ./start-master.sh
>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin;

./stop-slave.sh;

./start-slave.sh spark://XXXXX

>bin/spark-shell.sh 启动spark shell

在SPARK_HOME/sbin文件夹:

sbin/start-master.sh-在机器上运行脚本。启动 master .

sbin/start-slaves.sh- 启动conf/slaves中指定的每一个slave .

sbin/start-all.sh- 同一时候启动master 以及上面所说文件里指定的slave

sbin/stop-master.sh- 中止经过bin/start-master.sh脚本启动的master

sbin/stop-slaves.sh- 中止经过bin/start-slaves.sh启动的slave .

sbin/stop-all.sh- 中止上述的两种启动脚本启动的master和slave

执行：

想在想在spark上跑本身的代码，需要咱们打包成jar ，使用 spark-streaming的命令。但是需要用到sbt的tool，咱们下一节再介绍。

參考：1. http://spark.apache.org/docs/latest/index.html

2. http://blog.csdn.net/yunlong34574/article/details/39098815

3.http://www.oschina.net/translate/spark-standalone?cmp