第20课:Spark Streaming中动态Batch Size实现初探

本期内容:数据库

1,Batch Duration与Process Time安全

2,动态Batch Size架构

 

Batch Duration和Process Time并非线性相关的,当数据量增大时,仅仅增大Batch Duration是不可以解决问题的,还跟RDD涉及的算子有关。分布式

传统的数据处理应用中,采用J2EE和数据库的架构模式,可是当一秒内接收到的数据单台机器没法容纳或者没法处理时,就须要采用分布式流系统来处理接收到的数据。io

采用分布式流处理系统时,还会遇到数据量突发增大,此时须要考虑峰值。论文《dynamic_batching》提到动态Batch Size的思想,尽可能把Batch变小,处理就会越快,也就越安全。架构模式

引入控制模块,从Process Time的信息来改变Batch Interval。im

相关文章
相关标签/搜索