Spark Streaming使用Kafka保证数据零丢失

时间 2019-11-20

标签 spark streaming 使用 kafka 保证数据丢失栏目 Spark 繁體版

原文原文链接

源文件放在github，随着理解的深刻，不断更新，若有谬误之处，欢迎指正。原文连接https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/spark_streaming使用kafka保证数据零丢失.mdgit

spark streaming从1.2开始提供了数据的零丢失，想享受这个特性，须要知足以下条件：github

1.数据输入须要可靠的sources和可靠的receivers分布式

2.应用metadata必须经过应用driver checkpointoop

3.WAL（write ahead log）post

##可靠的sources和receivers性能

spark streaming能够经过多种方式做为数据sources（包括kafka），输入数据经过receivers接收，经过replication存储于spark中（为了faultolerance，默认复制到两个spark executors），若是数据复制完成，receivers能够知道（例如kafka中更新offsets到zookeeper中）。这样当receivers在接收数据过程当中crash掉，不会有数据丢失，receivers没有复制的数据，当receiver恢复后从新接收。spa

##metadata checkpointcode

可靠的sources和receivers，可使数据在receivers失败后恢复，然而在driver失败后恢复是比较复杂的，一种方法是经过checkpoint metadata到HDFS或者S3。metadata包括：blog

configuration
code
一些排队等待处理但没有完成的RDD（仅仅是metadata，而不是data）

这样当driver失败时，能够经过metadata checkpoint，重构应用程序并知道执行到那个地方。内存

##数据可能丢失的场景

可靠的sources和receivers，以及metadata checkpoint也不能够保证数据的不丢失，例如：

两个executor获得计算数据，并保存在他们的内存中
receivers知道数据已经输入
executors开始计算数据
driver忽然失败
driver失败，那么executors都会被kill掉
由于executor被kill掉，那么他们内存中得数据都会丢失，可是这些数据再也不被处理
executor中的数据不可恢复

##WAL

为了不上面情景的出现，spark streaming 1.2引入了WAL。全部接收的数据经过receivers写入HDFS或者S3中checkpoint目录，这样当driver失败后，executor中数据丢失后，能够经过checkpoint恢复。

##At-Least-Once 尽管WAL能够保证数据零丢失，可是不能保证exactly-once，例以下面场景：

Receivers接收完数据并保存到HDFS或S3
在更新offset前，receivers失败了
Spark Streaming觉得数据接收成功，可是Kafka觉得数据没有接收成功，由于offset没有更新到zookeeper
随后receiver恢复了
从WAL能够读取的数据从新消费一次，由于使用的kafka High-Level消费API，从zookeeper中保存的offsets开始消费

##WAL的缺点经过上面描述，WAL有两个缺点：

下降了receivers的性能，由于数据还要存储到HDFS等分布式文件系统
对于一些resources，可能存在重复的数据，好比Kafka，在Kafka中存在一份数据，在Spark Streaming也存在一份（以WAL的形式存储在hadoop API兼容的文件系统中）

##Kafka direct API 为了WAL的性能损失和exactly-once，spark streaming1.3中使用Kafka direct API。很是巧妙，Spark driver计算下个batch的offsets，指导executor消费对应的topics和partitions。消费Kafka消息，就像消费文件系统文件同样。

1.再也不须要kafka receivers，executor直接经过Kafka API消费数据

2.WAL再也不须要，若是从失败恢复，能够从新消费

3.exactly-once获得了保证，不会再从WAL中重复读取数据

##总结

主要说的是spark streaming经过各类方式来保证数据不丢失，并保证exactly-once，每一个版本都是spark streaming愈来愈稳定，愈来愈向生产环境使用发展。

##参考 spark-streaming Recent Evolution of Zero Data Loss Guarantee in Spark Streaming With Kafka