本期内容:数据库
1,updateStateByKey解密函数
2,mapWithState解密性能
updateStateByKey和mapWithState方法在DStream中找不到,须要进行隐式转换,转换为PairDStreamFunctions对象。对象
updateStateByKey是在已有的状态下进行更新操做。Seq[V]中存放历史数据,Option[S]存放新值,可能没有值。使用了默认的Partitioner函数,HashPartitioner。继承
StateDStream继承DStream,使用MEMORY_ONLY_SER的方式做为存储级别。接口
StateDStream的compute方法,若是parent存在则调用computeUsingPreviousRDD方法,若是不存在调用preStateRDD的mapPartitions方法。get
computeUsingPreviousRDD方法中,parentRDD和以前的RDD进行cogroup操做,根据Key对Value进行聚合,基于Key对全部的Value进行扫描,当数据量比较少时能够考虑使用cogroup方法,可是当数据量大时,就会影响整个运行,下降性能。it
mapWithState方法中接收StateSpec类型的参数,StateSpec中封装了更新操做的函数。io
StateImpl继承State类,记录了其状态信息,定义了获取,更新,删除等操做接口,很像是数据库中的一张表,进行增删改查。基础
StateSpecImpl类中定义了如何初始化状态,设置Partition的个数,设置分区函数Partition。
MapWithStateDStreamImpl类的compute方法其实质是调用InternalMapWithStateDStream的getOrCompute方法。
InternalMapWithStateDStream是在历史数据的基础上进行更新操做。
InternalMapWithStateDStream的compute方法中,实例化了MapWithStateRDD对象。
MapWithStateRDD类中,一个Partition对应一个MapWithStateRDDRecord。
MapWithStateRDD的compute方法,先获取以前的State信息,和如今数据的迭代器进行操做,,调用MapWithStateRDDRecord的updateRecordWithData的方法,返回MapWithStateRDDRecord为元素的迭代器。
newStateMap中保存了整个历史数据。
RDD是不可变的,可是RDD中的数据能够变化。