第14课：Spark Streaming源码解读之State管理之updateState

时间 2019-11-13

标签 spark streaming 源码解读 state 管理 updatestate 栏目 Spark 繁體版

原文原文链接

本期内容：数据库

1，updateStateByKey解密函数

2，mapWithState解密性能

updateStateByKey和mapWithState方法在DStream中找不到，须要进行隐式转换，转换为PairDStreamFunctions对象。对象

updateStateByKey是在已有的状态下进行更新操做。Seq[V]中存放历史数据，Option[S]存放新值，可能没有值。使用了默认的Partitioner函数，HashPartitioner。继承

StateDStream继承DStream，使用MEMORY_ONLY_SER的方式做为存储级别。接口

StateDStream的compute方法，若是parent存在则调用computeUsingPreviousRDD方法，若是不存在调用preStateRDD的mapPartitions方法。get

computeUsingPreviousRDD方法中，parentRDD和以前的RDD进行cogroup操做，根据Key对Value进行聚合，基于Key对全部的Value进行扫描，当数据量比较少时能够考虑使用cogroup方法，可是当数据量大时，就会影响整个运行，下降性能。it

mapWithState方法中接收StateSpec类型的参数，StateSpec中封装了更新操做的函数。io

StateImpl继承State类，记录了其状态信息，定义了获取，更新，删除等操做接口，很像是数据库中的一张表，进行增删改查。基础

StateSpecImpl类中定义了如何初始化状态，设置Partition的个数，设置分区函数Partition。

MapWithStateDStreamImpl类的compute方法其实质是调用InternalMapWithStateDStream的getOrCompute方法。

InternalMapWithStateDStream是在历史数据的基础上进行更新操做。

InternalMapWithStateDStream的compute方法中，实例化了MapWithStateRDD对象。

MapWithStateRDD类中，一个Partition对应一个MapWithStateRDDRecord。

MapWithStateRDD的compute方法，先获取以前的State信息，和如今数据的迭代器进行操做，，调用MapWithStateRDDRecord的updateRecordWithData的方法，返回MapWithStateRDDRecord为元素的迭代器。

newStateMap中保存了整个历史数据。

RDD是不可变的，可是RDD中的数据能够变化。