Spark Streaming管理Kafka偏移量

时间 2019-12-06

标签 spark streaming 管理 kafka 偏移量栏目 Spark 繁體版

原文原文链接

前言

为了让Spark Streaming消费kafka的数据不丢数据，能够建立Kafka Direct DStream，由Spark Streaming本身管理offset，并非存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，由于它能够在Spark的框架内轻松得到。 checkpoints将应用程序的状态保存到HDFS，以便在故障时能够恢复。若是发生故障，Spark Streaming应用程序能够从checkpoints偏移范围读取消息。java

可是，Spark Streaming checkpoints在应用程序修改后因为从checkpoint反序列化失败而没法恢复，所以不是很是可靠，特别是若是您将此机制用于关键生产应用程序，另外，基于zookeeper的offset可视化工具将没法使用。咱们不建议经过Spark checkpoints来管理偏移量。所以本文将手动存储offset到zookeeper，彻底自我掌控offset。面试

从ZK获取offset

建立ZKClient，API有好几个，最后用带序列化参数的，否则保存offset的时候容易出现乱码。架构

查看该groupId在该topic下是否有消费记录，若是有，确定在对应目录下会有分区数，children大于0则有记录。框架

在有记录的状况下，去拿具体的offset分布式

注意红色线框部分，在zookeeper里存储的offset有可能在kafka里过时了，因此要拿kafka最小的offset和zookeeper里的offset比较一下。工具

接下来就能够建立Kafka Direct DStream了，前者是从zookeeper拿的offset，后者是直接从最新的开始（第一次消费）。源码分析

最后就是处理RDD，保存Offset。性能

感兴趣能够加Java架构师群获取Java工程化、高性能及分布式、高性能、深刻浅出。高架构。性能调优、Spring，MyBatis，Netty源码分析和大数据等多个知识点高级进阶干货的直播免费学习权限都是大牛带飞让你少走不少的弯路的群..号是：855801563 对了小白勿进最好是有开发经验学习

注：加群要求大数据

一、具备工做经验的，面对目前流行的技术不知从何下手，须要突破技术瓶颈的能够加。

二、在公司待久了，过得很安逸，但跳槽时面试碰壁。须要在短期内进修、跳槽拿高薪的能够加。

三、若是没有工做经验，但基础很是扎实，对java工做机制，经常使用设计思想，经常使用java开发框架掌握熟练的，能够加。

四、以为本身很牛B，通常需求都能搞定。可是所学的知识点没有系统化，很难在技术领域继续突破的能够加。

5.阿里Java高级大牛直播讲解知识点，分享知识，多年工做经验的梳理和总结，带着你们全面、科学地创建本身的技术体系和技术认知！