经过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制

一:spark各个子框架的关系:框架

 上节课咱们采用了降维的方式查看了整个spark streaming的大概运行的过程,再次强调,spark streaming 实际上是构建在spark core之上的一个应用程序,若是要构建一个强大的spark应用程序 ,spark streaming 是一个值得借鉴的参考,spark streaming涉及多个job交叉配合,里面涉及到了spark的全部的核心组件,若是对spark streaming 精通了的话,能够说就精通了整个spark,因此精通掌握spark streaming是相当重要的spa

spark 的各个子框架都是基于spark core的。spark streaming在内部的处理机制是接受实时流的数据,并根据必定的时间间隔分红一批一批的数据,而后经过spark engine处理这些批数据,最后获得处理后的一批一批的数据。线程

对应的批数据,在spark内核对应RDD,在spark streaming中对应DStream ,一个DStream至关于RDD的模板,对应一组RDD(RDD的一个序列)对象

通俗点理解的话,在数据分红一批一批后,经过一个队列,而后spark引擎从该队列中依次一个一个的取出批数据,把批数据封装成一个DStream,由于DStream是RDD的模板,是RDD的一个逻辑级别的抽象,因此实质上是把数据封装成为物理级别的RDD.队列

二:Spark Streaming基础概念理解:事务

为了更好的理解spark streaming,咱们先简单的对相关概念理解一下kafka

1 离散流:(Discretized Stream ,DStream):这是spark streaming对内部的持续的实时数据流的抽象描述,也即咱们处理的一个实时数据流,在spark streaming中对应一个DStreaminput

2 批数据:将实时流时间以时间为单位进行分批,将数据处理转化为时间片数据的批处理it

3 时间片或者批处理时间间隔:逻辑级别的对数据进行定量的标准,以时间片做为拆分流数据的依据。spark

4 窗口长度:一个窗口覆盖的流数据的时间长度。好比说要每隔5分钟统计过去30分钟的数据,窗口长度为6,由于30分钟是batch interval 的6倍

5 滑动时间间隔:好比说要每隔5分钟统计过去30分钟的数据,窗口时间间隔为5分钟

6 input DStream :一个inputDStream是一个特殊的DStream 将spark streaming链接到一个外部数据源来读取数据。

7 Receiver :长时间(可能7*24小时)运行在Excutor之上,每一个Receiver负责一个inuptDStream (好比读取一个kafka消息的输入流)。每一个Receiver,加上inputDStream 会占用一个core/slot

重点来了!!!咱们用时空维度和空间维度分别对DStream 和RDD来更加深刻而且另类的理解spark streaming,以及两者之间的关系。

DStream 对应时空维度,空间加上时间(从目前来看,spark streaming的精妙之一是用时间来解耦合,是目前所见最好的解耦合的方式),RDD对应空间维度,整个sparkStreaming是时空维度。

纵轴为空间维度:表明的是RDD的依赖关系构成的具体的处理逻辑的步骤,是用DStream来表示的。

横轴为时间维度:按照特定的时间间隔不断地生成job对象,并在集群上运行。

随着时间的推移,基于DStream Graph 不断生成RDD Graph ,也即DAG的方式生成job,并经过Job Scheduler的线程池的方式提交给spark cluster不断的执行。(sparkStreaming只关注时间维度不关注空间维度)

由上可知,RDD    与  DStream的关系以下:

1.RDD是物理级别的,而 DStream 是逻辑级别的

2.DStream是RDD的封装类,是RDD进一步的抽象

3.DStream 是RDD的模板。DStream要依赖RDD进行具体的数据计算

(注意:纵轴维度须要RDD,DAG的生成模板,须要TimeLine的job控制器

横轴维度(时间维度)包含batch interval,窗口长度,窗口滑动时间等。)

4.inputStream和outputStream分别表明数据的输入和输出

5.具体的job运行在spark cluster之上,此时系统的容错就很是重要,而spark streaimg的容错很是巧妙,它巧妙的借用了spark core rdd的容错而容错。(RDD能够指定StorageLevel来实现存放多个副本用来作容错)

6.事务处理:数据必定会被处理,而且只会对数据处理一次,这个特性对于那些诸如计费系统的实现很是重要

相关文章
相关标签/搜索