实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

时间 2021-01-12

标签实时流计算去重 kafka spark-streaming redies 栏目 Spark 繁體版

原文原文链接

在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例，一方面说明一下如何做到Exactly-once，另一方面说明一下我是如何计算实时去重指标的。 1. 关于数据源数据源是文本格式的日志，由Nginx产生，存放于日志服务器上。在日志服务器上部署Flume Agent，使用TAILDIR So

>>阅读原文<<