基于 Flink 1.9 讲解的专栏,涉及入门、概念、原理、实战、性能调优、系统案例的讲解。git
<!--more-->架构
扫码下面专栏二维码能够订阅该专栏并发
首发地址:http://www.54tianzhisheng.cn/2019/11/15/flink-in-action/框架
专栏地址:https://gitbook.cn/gitchat/column/5dad4a20669f843a1a37cb4f运维
随着大数据的不断发展,对数据的及时性要求愈来愈高,实时场景需求也变得愈来愈多,主要分下面几大类:高并发
为了知足这些实时场景的需求,衍生出很多计算引擎框架。现有市面上的大数据计算引擎的对好比下图所示:性能
能够发现不管从 Flink 的架构设计上,仍是从其功能完整性和易用性来说都是领先的,再加上 Flink 是阿里巴巴主推的计算引擎框架,因此从去年开始就愈来愈火了!学习
目前,阿里巴巴、腾讯、美团、华为、滴滴出行、携程、饿了么、爱奇艺、有赞、惟品会等大厂都已经将 Flink 实践于公司大型项目中,带起了一波 Flink 风潮,势必也会让 Flink 人才市场产生供不该求的招聘现象。大数据
介绍实时计算常见的使用场景,讲解 Flink 的特性,而且对比了 Spark Streaming、Structured Streaming 和 Storm 等大数据处理引擎,而后准备环境并经过两个 Flink 应用程序带你们上手 Flink。spa
深刻讲解 Flink 中 Time、Window、Watermark、Connector 原理,并有大量文章篇幅(含详细代码)讲解如何去使用这些 Connector(好比 Kafka、ElasticSearch、HBase、Redis、MySQL 等),而且会讲解使用过程当中可能会遇到的坑,还教你们如何去自定义 Connector。
讲解 Flink 中 State、Checkpoint、Savepoint、内存管理机制、CEP、Table/SQL API、Machine Learning 、Gelly。在这篇中不只只讲概念,还会讲解如何去使用 State、如何配置 Checkpoint、Checkpoint 的流程和如何利用 CEP 处理复琐事件。
重点介绍 Flink 做业上线后的监控运维:如何保证高可用、如何定位和排查反压问题、如何合理的设置做业的并行度、如何保证 Exactly Once、如何处理数据倾斜问题、如何调优整个做业的执行效率、如何监控 Flink 及其做业?
教你们如何分析实时计算场景的需求,并使用 Flink 里面的技术去实现这些需求,好比实时统计 PV/UV、实时统计商品销售额 TopK、应用 Error 日志实时告警、机器宕机告警。这些需求如何使用 Flink 实现的都会提供完整的代码供你们参考,经过这些需求你能够学到 ProcessFunction、Async I/O、广播变量等知识的使用方式。
讲解大型流量下的真实案例:如何去实时处理海量日志(错误日志实时告警/日志实时 ETL/日志实时展现/日志实时搜索)、基于 Flink 的百亿数据实时去重实践(从去重的通用解决方案 --> 使用 BloomFilter 来实现去重 --> 使用 Flink 的 KeyedState 实现去重)。
原文出处:zhisheng的博客,欢迎关注个人公众号:zhisheng