Spark Streaming管理Kafka偏移量

前言

为了让Spark Streaming消费kafka的数据不丢数据,能够建立Kafka Direct DStream,由Spark Streaming本身管理offset,并非存到zookeeper。启用S​​park Streaming的 checkpoints是存储偏移量的最简单方法,由于它能够在Spark的框架内轻松得到。 checkpoints将应用程序的状态保存到HDFS,以便在故障时能够恢复。若是发生故障,Spark Streaming应用程序能够从checkpoints偏移范围读取消息。java

可是,Spark Streaming checkpoints在应用程序修改后因为从checkpoint反序列化失败而没法恢复,所以不是很是可靠,特别是若是您将此机制用于关键生产应用程序,另外,基于zookeeper的offset可视化工具将没法使用。咱们不建议经过Spark checkpoints来管理偏移量。所以本文将手动存储offset到zookeeper,彻底自我掌控offset。面试

从ZK获取offset

建立ZKClient,API有好几个,最后用带序列化参数的,否则保存offset的时候容易出现乱码。架构

查看该groupId在该topic下是否有消费记录,若是有,确定在对应目录下会有分区数,children大于0则有记录。框架

在有记录的状况下,去拿具体的offset分布式

注意红色线框部分,在zookeeper里存储的offset有可能在kafka里过时了,因此要拿kafka最小的offset和zookeeper里的offset比较一下。工具

接下来就能够建立Kafka Direct DStream了,前者是从zookeeper拿的offset,后者是直接从最新的开始(第一次消费)。源码分析

最后就是处理RDD,保存Offset。性能

感兴趣能够加Java架构师群获取Java工程化、高性能及分布式、高性能、深刻浅出。高架构。性能调优、Spring,MyBatis,Netty源码分析和大数据等多个知识点高级进阶干货的直播免费学习权限 都是大牛带飞 让你少走不少的弯路的 群..号是:855801563 对了 小白勿进 最好是有开发经验学习

注:加群要求大数据

一、具备工做经验的,面对目前流行的技术不知从何下手,须要突破技术瓶颈的能够加。

二、在公司待久了,过得很安逸,但跳槽时面试碰壁。须要在短期内进修、跳槽拿高薪的能够加。

三、若是没有工做经验,但基础很是扎实,对java工做机制,经常使用设计思想,经常使用java开发框架掌握熟练的,能够加。

四、以为本身很牛B,通常需求都能搞定。可是所学的知识点没有系统化,很难在技术领域继续突破的能够加。

5.阿里Java高级大牛直播讲解知识点,分享知识,多年工做经验的梳理和总结,带着你们全面、科学地创建本身的技术体系和技术认知!

相关文章
相关标签/搜索