Spark Streaming 流计算优化记录(5)-分区与内存的优化

8. 不一定非得每秒处理一次 由于Spark Streaming的原理是micro batch, 因此当batch积累到一定数量时再发放到集群中计算, 这样的数据吞吐量会更大些. 这需要在StreamingContext中设置Duration参数. 我们试着把Duration调成两秒, 这样Spark就会在接收Kafka的模块中积累了2秒的数据后, 在调度作业到集群中计算. 结合上述做过的优化,
相关文章
相关标签/搜索