字节跳动 Flink 单点恢复功能实践

简介:在 Flink 现有的架构设计中,多流 Join 拓扑下单个 Task 失败会导致所有 Task 重新部署,耗时可能会持续几分钟,导致作业的输出断流,这对于线上业务来说是不可接受的。针对这一痛点,字节提出单点恢复的方案。 背景 在字节跳动的实时计算场景中,我们有很多任务(数量 2k+)会直接服务于线上,其输出时延和稳定性会直接影响线上产品的用户体验,这类任务通常具有如下特点: 流量大,并发高
相关文章
相关标签/搜索