为什么 Spark Streaming + Kafka 无法保证 exactly once?

Streaming job 的调度与执行 为什么很难保证 exactly once 上面这张流程图最主要想说明的就是,job 的提交执行是异步的,与 checkpoint 操作并不是原子操作。这样的机制会引起数据重复消费问题: 为了简化问题容易理解,我们假设一个 batch 只生成一个 job,并且 spark.streaming.concurrentJobs 值为1,该值代表 jobExecut
相关文章
相关标签/搜索