SparkStreaming是架构在SparkCore上的一个“应用”,SparkStreaming主要由DStreamGraph、Job的生成、数据的接收和导入以及容错四大模块组成,咱们今天就从这四大模块入手,看看每一个模块都有什么样的调优方式缓存
其实这部分主要是算子的使用优化,这个跟Spark调优的内容是相同,在这一部分能够优化的内容有架构
这一部分主要涉及到的调优是batchInternal的调整,为了程序不延迟地执行,合理的batchInternal是必要的app
这一部分主要是针对数据的接受速度进行调优,若是接收速度大于处理数据,那么程序会走向无限延迟最后崩溃的道路,因此主要的调优在于限速框架
对于receiver和direct approach 方式都通用的
spark.streaming.backpressure.enabled=true; sparkstreaming框架会自动地计算处理速度来控制数据的接受速度,建议开启性能
主要是数据的容错方式选择优化