https://github.com/zhisheng17/flink-learningphp
麻烦路过的各位亲给这个项目点个 star,太不易了,写了这么多,算是对我坚持下来的一种鼓励吧!java
2019/06/08 新增 Flink 四本电子书籍的 PDF,在 books 目录下:mysql
2019/06/09 新增流处理引擎相关的 Paper,在 paper 目录下:linux
一、Flink 从0到1学习 —— Apache Flink 介绍git
二、Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门github
三、Flink 从0到1学习 —— Flink 配置文件详解web
四、Flink 从0到1学习 —— Data Source 介绍面试
五、Flink 从0到1学习 —— 如何自定义 Data Source ?redis
六、Flink 从0到1学习 —— Data Sink 介绍算法
七、Flink 从0到1学习 —— 如何自定义 Data Sink ?
八、Flink 从0到1学习 —— Flink Data transformation(转换)
九、Flink 从0到1学习 —— 介绍 Flink 中的 Stream Windows
十、Flink 从0到1学习 —— Flink 中的几种 Time 详解
十一、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 ElasticSearch
十二、Flink 从0到1学习 —— Flink 项目如何运行?
1三、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Kafka
1四、Flink 从0到1学习 —— Flink JobManager 高可用性配置
1五、Flink 从0到1学习 —— Flink parallelism 和 Slot 介绍
1六、Flink 从0到1学习 —— Flink 读取 Kafka 数据批量写入到 MySQL
1七、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 RabbitMQ
1八、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 HBase
1九、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 HDFS
20、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Redis
2一、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Cassandra
2二、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Flume
2三、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 InfluxDB
2四、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 RocketMQ
2五、Flink 从0到1学习 —— 你上传的 jar 包藏到哪里去了
2六、Flink 从0到1学习 —— 你的 Flink job 日志跑到哪里去了
另外我本身整理了些 Flink 的学习资料,目前已经所有放到微信公众号了。
你能够加个人微信:zhisheng_tian,而后回复关键字:Flink 便可无条件获取到,转载请联系本人获取受权,违者必究。
更多私密资料请加入知识星球!
有人要问知识星球里面更新什么内容?值得加入吗?
目前知识星球内已更新的系列文章:
四、Flink 源码解析 —— standalonesession 模式启动流程
五、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Job Manager 启动
六、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Task Manager 启动
七、Flink 源码解析 —— 分析 Batch WordCount 程序的执行过程
八、Flink 源码解析 —— 分析 Streaming WordCount 程序的执行过程
九、Flink 源码解析 —— 如何获取 JobGraph?
十、Flink 源码解析 —— 如何获取 StreamGraph?
十一、Flink 源码解析 —— Flink JobManager 有什么做用?
十二、Flink 源码解析 —— Flink TaskManager 有什么做用?
1三、Flink 源码解析 —— JobManager 处理 SubmitJob 的过程
1四、Flink 源码解析 —— TaskManager 处理 SubmitJob 的过程
1五、Flink 源码解析 —— 深度解析 Flink Checkpoint 机制
1六、Flink 源码解析 —— 深度解析 Flink 序列化机制
1七、Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?
1八、Flink Metrics 源码解析 —— Flink-metrics-core
1九、Flink Metrics 源码解析 —— Flink-metrics-datadog
20、Flink Metrics 源码解析 —— Flink-metrics-dropwizard
2一、Flink Metrics 源码解析 —— Flink-metrics-graphite
2二、Flink Metrics 源码解析 —— Flink-metrics-influxdb
2三、Flink Metrics 源码解析 —— Flink-metrics-jmx
2四、Flink Metrics 源码解析 —— Flink-metrics-slf4j
2五、Flink Metrics 源码解析 —— Flink-metrics-statsd
2六、Flink Metrics 源码解析 —— Flink-metrics-prometheus
除了《从1到100深刻学习Flink》源码学习这个系列文章,《从0到1学习Flink》的案例文章也会优先在知识星球更新,让你们先经过一些 demo 学习 Flink,再去深刻源码学习!
若是学习 Flink 的过程当中,遇到什么问题,能够在里面提问,我会优先解答,这里作个抱歉,本身平时工做也挺忙,微信的问题不能作所有作一些解答,
但确定会优先回复给知识星球的付费用户的,庆幸的是如今星球里的活跃氛围仍是能够的,有很多问题经过提问和解答的方式沉淀了下来。
一、为什么我使用 ValueState 保存状态 Job 恢复是状态没恢复?
二、flink中watermark到底是如何生成的,生成的规则是什么,怎么用来处理乱序数据
三、消费kafka数据的时候,若是遇到了脏数据,或者是不符合规则的数据等等怎么处理呢?
四、在Kafka 集群中怎么指定读取/写入数据到指定broker或从指定broker的offset开始消费?
六、jobmanager挂掉后,提交的job怎么不通过手动从新提交执行?
八、经过flink 仪表盘提交的jar 是存储在哪一个目录下?
九、从Kafka消费数据进行etl清洗,把结果写入hdfs映射成hive表,压缩格式、hive直接可以读取flink写出的文件、按照文件大小或者时间滚动生成文件
十一、flink 启动时不自动建立 上传jar的路径,能指定一个建立好的目录吗
十二、Flink sink to es 集群上报 slot 不够,单机跑是好的,为何?
1三、Fllink to elasticsearch如何建立索引文档期时间戳?
1四、blink有没有api文档或者demo,是否建议blink用于生产环境。
1六、Flink VS Spark Streaming VS Storm VS Kafka Stream
1七、大家作实时大屏的技术架构是什么样子的?flume→kafka→flink→redis,而后后端去redis里面捞数据,酱紫可行吗?
1八、作一个统计指标的时候,须要在Flink的计算过程当中屡次读写redis,感受好怪,星主有没有好的方案?
1九、Flink 使用场景大分析,列举了不少的经常使用场景,能够好好参考一下
20、将kafka中数据sink到mysql时,metadata的数据为空,导入mysql数据不成功???
2二、flink on yarn jobmanager的HA须要怎么配置。仍是说yarn给管理了
2五、不采用yarm部署flink,还有其余的方案吗? 主要想解决服务器重启后,flink服务怎么自动拉起? jobmanager挂掉后,提交的job怎么不通过手动从新提交执行?
2六、在一个 Job 里将同份数据昨晚清洗操做后,sink 到后端多个地方(看业务需求),如何保持一致性?(一个sink出错,另外的也保证不能插入)
2七、flink sql任务在某个特定阶段会发生tm和jm丢失心跳,是否是因为gc时间过长呢,
2九、一个task slot 只能同时运行一个任务仍是多个任务呢?若是task slot运行的任务比较大,会出现OOM的状况吗?
30、大家怎么对线上flink作监控的,若是整个程序失败了怎么自动重启等等
3一、flink cep规则动态解析有接触吗?有没有成型的框架?
3二、每个Window都有一个watermark吗?window是怎么根据watermark进行触发或者销毁的?
3三、 CheckPoint与SavePoint的区别是什么?
3四、flink能够在算子中共享状态吗?或者大佬你有什么方法能够共享状态的呢?
3七、你们都用jdbc写,各类数据库增删查改拼sql有没有以为很累,ps.set代码一大堆,还要计算每一个参数的位置
3八、关于datasource的配置,每一个taskmanager对应一个datasource?仍是每一个slot? 实际运行下来,每一个slot中datasorce线程池只要设置1就好了,多了也用不到?
3九、kafka如今天天出现数据丢失,如今小批量数据,一天200W左右, kafka版本为 1.0.0,集群总共7个节点,TOPIC有十六个分区,单条报文1.5k左右
40、根据key.hash的绝对值 对并发度求模,进行分组,假设10各并发度,实际只有8个分区有处理数据,有2个始终不处理,还有一个分区处理的数据是其余的三倍,如截图
4一、flink每7小时不知道在处理什么, CPU 负载 每7小时,有一次高峰,5分钟内平均负载超过0.8,如截图
4二、有没有Flink写的项目推荐?我想看到用Flink写的总体项目是怎么组织的,不仅仅是一个单例子
4三、Flink 源码的结构图
4四、我想根据不一样业务表(case when)进行不一样的redis sink(hash ,set),我要如何操做?
4五、这个须要清理什么数据呀,我把hdfs里面的已经清理了 启动仍是报这个
4六、 在流处理系统,在机器发生故障恢复以后,什么状况消息最多会被处理一次?什么状况消息最少会被处理一次呢?
4八、reduce方法后 那个交易时间 怎么不是最新的,是第一次进入的那个时间,
5二、用户进入产品预约页面(端埋点上报),并填写了一些信息(端埋点上报),但半小时内并无产生任何订单,而后给该类用户发送一个push。 1. 这种需求适合用flink去作吗?2. 若是适合,说下大概的思路
5三、业务场景是实时获取数据存redis,请问我要如何按天、按周、按月分别存入redis里?(比方说过了一天自动换一个位置存redis)
5四、有人 AggregatingState 的例子吗, 感受官方的例子和 官网的不太同样?
5五、flink-jdbc这个jar有吗?怎么没找到啊?1.8.0的没找到,1.6.2的有
6一、请问下flink能够实现一个流中同时存在订单表和订单商品表的数据 二者是一对多的关系 能实现获得 以订单表为主 一个订单多个商品 这种需求嘛
6二、在用中间状态的时候,若是中间一些信息保存在state中,有没有必要在redis中再保存一份,来作第三方的存储。
6三、可否出一期flink state的文章。什么场景下用什么样的state?如,最简单的,实时累加update到state。
6四、flink的双流join博主有使用的经验吗?会有什么常见的问题吗
6五、窗口触发的条件问题
6八、重启flink单机集群,还报job not found 异常。
7一、flink 支持hadoop 主备么? hadoop主节点挂了 flink 会切换到hadoop 备用节点?
7二、请教你们: 实际 flink 开发中用 scala 多仍是 java多些? 刚入手 flink 大数据 scala 须要深刻学习么?
7三、我使用的是flink是1.7.2最近用了split的方式分流,可是底层的SplitStream上却标注为Deprecated,请问是官方不推荐使用分流的方式吗?
7五、用flink时,遇到个问题 checkpoint大概有2G左右, 有背压时,flink会重启有遇到过这个问题吗
80、使用rocksdb状态后端,自定义pojo怎么实现序列化和反序列化的,有相关demo么?
8一、check point 总是失败,是否是自定义的pojo问题?到本地能够,到hdfs就不行,网上也有不少相似的问题 都没有一个很好的解释和解决方案
8四、Flink job打开了checkpoint,用的rocksdb,经过观察hdfs上checkpoint目录,为啥算副本总量会暴增爆减
8五、[Flink 提交任务的 jar包能够指定路径为 HDFS 上的吗]()
8九、用flink清洗数据,其中要访问redis,根据redis的结果来决定是否把数据传递到下流,这有可能实现吗?
9一、[sink到MySQL,若是直接用idea的话能够运行,而且成功,大大的代码上面用的FlinkKafkaConsumer010,而个人Flink版本为1.7,kafka版本为2.12,因此当我用FlinkKafkaConsumer010就有问题,因而改成
FlinkKafkaConsumer就能够直接在idea完成sink到MySQL,可是为什么当我把该程序打成Jar包,去运行的时候,就是报FlinkKafkaConsumer找不到呢](https://t.zsxq.com/MN7iuZf)
9二、SocketTextStreamWordCount中输入中文统计不出来,请问这个怎么解决,我猜想应该是须要修改一下代码,应该是这个例子默认统计英文
9三、 Flink 应用程序本地 ide 里面运行的时候并行度是怎么算的?
9四、 请问下flink中对于窗口的全量聚合有apply和process两种 他们有啥区别呢
9六、 来分析一下如今Flink,Kafka方面的就业形势,以及准备就业该如何准备的这方面内容呢?
9七、 大佬知道flink的dataStream能够转换为dataSet吗?由于数据须要11分钟一个批次计算五六个指标,而且涉及好几步reduce,计算的指标之间有联系,用Stream卡住了。
9八、1.如何在同一窗口内实现屡次的聚合,好比像spark中的这样2.多个实时流的jion能够用window来处理一批次的数据吗?
9九、写的批处理的功能,如今本机跑是没问题的,就是在linux集群上出现了问题,就是不知道若是经过本地调用远程jar包而后传参数和拿到结果参数返回本机
10一、 有使用AssignerWithPunctuatedWatermarks 的案例Demo吗?网上找了都是AssignerWithPeriodicWatermarks的,不知道具体怎么使用?
10三、 为啥split这个流设置为过时的
10五、 Flink 对 SQL 的重视性
10六、 flink job打开了checkpoint,任务跑了几个小时后就出现下面的错,截图是打出来的日志,有个OOM,又遇到过的没?
10七、 本地测试是有数据的,以前该任务放在集群也是有数据的,可能提交过屡次,如今读不到数据了 group id 也换过了, 只能重启集群解决么?
10八、使用flink清洗数据存到es中,直接在flatmap中对处理出来的数据用es本身的ClientInterface类直接将数据存入es当中,不走sink,这样的处理逻辑是否是会有问题。
10九、 设置时间时间特性有什么区别呢, 分别在什么场景下使用呢?两种设置时间延迟有什么区别呢 , 分别在什么场景下使用
11五、如今遇到一个需求,须要在job内部定时去读取redis的信息,想请教flink能实现像普通程序那样的定时任务吗?
11七、请问impala这种mpp架构的sql引擎,为何稳定性比较差呢?
11八、watermark跟并行度相关不是,过于全局了,指望是keyby以后再针对每一个keyed stream 打watermark,这个有什么好的实践呢?
11九、请问若是把一个文件的内容读取成datastream和dataset,有什么区别吗??他们都是一条数据一条数据的被读取吗?
12三、flink的状态是默认存在于内存的(也能够设置为rocksdb或hdfs),而checkpoint里面是定时存放某个时刻的状态信息,能够设置hdfs或rocksdb是这样理解的吗?
12四、Flink异步IO中,下图这两种有什么区别?为啥要加 CompletableFuture.supplyAsync,不太明白?
12五、flink的状态是默认存在于内存的(也能够设置为rocksdb或hdfs),而checkpoint里面是定时存放某个时刻的状态信息,能够设置hdfs或rocksdb是这样理解的吗?
12七、一个互联网公司,或者一个业务系统,若是想作一个全面的监控要怎么作?有什么成熟的方案能够参考交流吗?有什么有什么度量指标吗?
12八、怎么深刻学习flink,或者其余大数据组件,能为将来秋招找一份大数据相关(计算方向)的工做增长本身的竞争力?
140、端到端的数据保证,是否意味着中间处理程序中断,也不会形成该批次处理失败的消息丢失,处理程序从新启动以后,会再次处理上次未处理的消息
14二、FLIP-16 Loop Fault Tolerance 是讲如今的checkpoint机制没法在stream loop的时候容错吗?如今这个问题解决了没有呀?
14三、如今的需求是,统计各个key的今日累计值,一分钟输出一次。如,各个用户今日累计点击次数。这种需求用datastream仍是table API方便点?
14四、本地idea能够跑的工程,放在standalone集群上,总报错,报错截图以下,大佬请问这是啥缘由
14五、好比如今用k8s起了一个flink集群,这时候数据源kafka或者hdfs会在同一个集群上吗,仍是会单独再起一个hdfs/kafka集群
14七、[基于事件时间,每五分钟一个窗口,五秒钟滑动一次,同时watermark的时间一样是基于事件事件时间的,延迟设为1分钟,假如数据流从12:00开始,若是12:07-12:09期间没有产生任何一条数据,即在12:07-12:09这段间的数据流状况为···· (12:07:00,xxx),(12:09:00,xxx)······,那么窗口[12:02:05-12:07:05],[12:02:10-12:07:10]等几个窗口的计算是否意味着只有等到,12:09:00的数据到达以后才会触发](https://t.zsxq.com/fmq3fYF)
14九、是否能够抽空总结一篇Flink 的 watermark 的原理案例?一直没搞明白基于事件时间处理时的数据乱序和数据迟到底咋回事
150、flink中rpc通讯的原理,与几个类的讲解,有没有系统详细的文章样,若有求分享,谢谢
15二、flink实时计算平台,yarn模式日志收集怎么作,为何会checkpoint失败,报警处理,后须要作什么吗?job监控怎么作
15四、为何使用SessionWindows.withGap窗口的话,State存不了东西呀,每次加1 ,拿出来都是null, 我换成 TimeWindow就没问题。
15五、请问一下,flink datastream流处理怎么统计去重指标? 官方文档中只看到批处理有distinct概念。
15六、好全的一篇文章,对比分析 Flink,Spark Streaming,Storm 框架
15七、关于 structured_streaming 的 paper
15八、zookeeper集群切换领导了,flink集群项目重启了就没有数据的输入和输出了,这个该从哪方面入手解决?
15九、我想请教下datastream怎么和静态数据join呢
160、时钟问题致使收到了明天的数据,这时候有什么比较好的处理方法?看到有人设置一个最大的跳跃阈值,若是当前数据时间 - 历史最大时间 超过阈值就不更新。如何合理的设计水印,有没有一些经验呢?
16五、请教一个flink sql的问题。我有两个聚合后的流表A和B,A和Bjoin获得C表。在设置state TTL 的时候是直接对C表设置仍是,对A表和B表设置比较好?
16六、spark改写为flink,会不会很复杂,还有这二者在SQL方面的支持差异大吗?
16七、请问flink allowedLateness致使窗口被屡次fire,最终数据重复消费,这种问题怎么处理,数据是写到es中
170、a,b,c三个表,a和c有eventtime,a和c直接join能够,a和b join后再和c join 就会报错,这是怎么回事呢
17一、自定义的source是这样的(图一所示) 使用的时候是这样的(图二所示),为何不管 sum.print().setParallelism(2)(图2所示)的并行度设置成几最后结果都是这样的
17二、刚接触flink,若有问的不合适的地方,请见谅。 一、为何说flink是有状态的计算? 二、这个状态是什么?三、状态存在哪里
17五、请问老师是否能够提供一些Apachebeam的学习资料 谢谢
17六、flink 的 DataSet或者DataStream支持索引查询以及删除吗,像spark rdd,若是不支持的话,该转换成什么
17八、我这边作了个http sink,想要批量发送数据,不过如今只能用数量控制发送,但最后的几个记录无法触发发送动做,想问下有没有什么办法
17九、请问下如何作定时去重计数,就是根据时间分窗口,窗口内根据id去重计数得出结果,多谢。试了很多办法,没有简单直接办法
180、我有个job使用了elastic search sink. 设置了批量5000一写入,可是看es监控显示每秒只能插入500条。是否是bulkprocessor的currentrequest为0有关
18二、在说明KeyBy的StreamGraph执行过程时,keyBy的ID为啥是6? 根据前面说,ID是一个静态变量,每取一次就递增1,我以为应该是3啊,是我理解错了吗
18四、能够分享下物理执行图怎样划分task,以及task如何执行,还有他们之间数据如何传递这块代码嘛?
18六、请问flink1.8,如何作到动态加载外部udf-jar包呢?
18九、今天本地运行flink程序,消费socket中的数据,连续只能消费两条,第三条flink就消费不了了
190、源数据通过过滤后分红了两条流,而后再分别提取事件时间和水印,作时间窗口,我测试时一条流没有数据,另外一条的数据看日志到了窗口操做那边就没走下去,貌似窗口一直没有等到触发
19三、想咨询下,如何对flink中的datastream和dataset进行数据采样
19四、一个flink做业常常发生oom,多是什么缘由致使的。 处理流程只有15+字段的解析,redis数据读取等操做,TM配置10g。 业务会在夜间刷数据,qps能打到2500左右~
19五、我看到flink 1.8的状态过时仅支持Processing Time,那么若是我使用的是Event time那么状态就不会过时吗
19六、请问我想每隔一小时统计一个属性从当天零点到当前时间的平均值,这样的时间窗该如何定义?
19七、flink任务里面反序列化一个类,报ClassNotFoundException,但是包里面是有这个类的,有遇到这种状况吗?
19八、在构造StreamGraph,相似PartitionTransformmation 这种类型的 transform,为何要添加成一个虚拟节点,而不是一个实际的物理节点呢?
等等等,还有不少,复制粘贴的我手累啊 😂
另外里面还会及时分享 Flink 的一些最新的资料(包括数据、视频、PPT、优秀博客,持续更新,保证全网最全,由于我知道 Flink 目前的资料还很少)
再就是星球用户给我提的一点要求:不按期分享一些本身遇到的 Flink 项目的实战,生产项目遇到的问题,是如何解决的等经验之谈!
七、《大数据“重磅炸弹”——实时计算框架 Flink》专栏系列文章目录大纲
八、《大数据“重磅炸弹”——实时计算框架 Flink》Chat 付费文章
固然,除了更新 Flink 相关的东西外,我还会更新一些大数据相关的东西,由于我我的以前不是大数据开发,因此如今也要狂补些知识!总之,但愿进来的童鞋们一块儿共同进步!
七、Lightweight Asynchronous Snapshots for Distributed Dataflows
八、Apache Flink™- Stream and Batch Processing in a Single Engine
1三、Stream Processing with Apache Flink pdf
1五、《大数据重磅炸弹-实时计算Flink》预备篇——大数据实时计算介绍及其经常使用使用场景 pdf 和 视频
1六、《大数据重磅炸弹-实时计算Flink》开篇词 pdf 和 视频
1七、四本 Flink 书
2一、基于Flink on Kubernetes的大数据平台
2六、流处理系统 的相关 paper原文出处:zhisheng的博客,欢迎关注个人公众号:zhisheng