102万行代码,1270 个问题,Flink 新版发布了什么?(附最佳实践电子书)

做者:李钰(绝顶)html

导读:Apache Flink 是公认的新一代开源大数据计算引擎,能够支持流处理、批处理和机器学习等多种计算形态,也是Apache 软件基金会和 GitHub 社区最为活跃的项目之一。

2019 年 1 月,阿里巴巴实时计算团队宣布将通过双十一历练和集团内部业务打磨的 Blink 引擎进行开源并向 Apache Flink 贡献代码,此后的一年中,阿里巴巴实时计算团队与 Apache Flink 社区密切合做,持续推动 Flink 对 Blink 的整合。 express

2 月 12 日,Apache Flink 1.10.0 正式发布,在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上,Flink 1.10 版本在生产可用性、功能、性能上都有大幅提高。本文将详细为你们介绍该版本的重大变动与新增特性。apache

文末更有 Flink 实践精选电子书,现已开放免费下载~ 缓存

<p style="text-align:center">下载地址</p> <p style="text-align:center">https://flink.apache.org/down...</p>架构

Flink 1.10 是迄今为止规模最大的一次版本升级,除标志着 Blink 的合并完成外,还实现了 Flink 做业的总体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化等。框架

综述

Flink 1.10.0 版本一共有 218 名贡献者,解决了 1270 个 JIRA issue,经由 2661 个 commit 总共提交了超过 102 万行代码,多项数据对比以前的几个版本都有所提高,印证着 Flink 开源社区的蓬勃发展。机器学习

640.png

其中阿里巴巴实时计算团队共提交 64.5 万行代码,超过总代码量的 60%,作出了突出的贡献。ide

640.jpeg

在该版本中,Flink 对 SQL 的 DDL 进行了加强,并实现了生产级别的 Batch 支持和 Hive 兼容,其中 TPC-DS 10T 的性能更是达到了 Hive 3.0 的 7 倍之多。在内核方面,对内存管理进行了优化。在生态方面,增长了 Python UDF 和原生 Kubernetes 集成的支持。后续章节将在这些方面分别进行详细介绍。函数

内存管理优化

在旧版本的 Flink 中,流处理和批处理的内存配置是割裂的,而且当流式做业配置使用 RocksDB 存储状态数据时,很难限制其内存使用,从而在容器环境下常常出现内存超用被杀的状况。性能

在 1.10.0 中,咱们对 Task Executor 的内存模型,尤为是受管理内存(Managed Memory)进行了大幅度的改进(FLIP-49),使得内存配置对用户更加清晰:

640-3.png

此外,咱们还将 RocksDB state backend 使用的内存归入了托管范畴,同时能够经过简单的配置来指定其能使用的内存上限和读写缓存比例(FLINK-7289)。以下图所示,在实际测试当中受控先后的内存使用差异很是明显。

640-2.jpeg
<p style="text-align:center">受控前的内存使用状况(share-slot)</p>
640-3.jpeg

<p style="text-align:center">受控后的内存使用状况(share-slot)</p>

Batch 兼容 Hive 且生产可用

Flink 从 1.9.0 版本开始支持 Hive 集成,但并未彻底兼容。在 1.10.0 中咱们对 Hive 兼容性作了进一步的加强,使其达到生产可用的标准。具体来讲,Flink 1.10.0 中支持:

  • Meta 兼容 - 支持直接读取 Hive catalog,覆盖 Hive 1.x/2.x/3.x 所有版本
  • 数据格式兼容 - 支持直接读取 Hive 表,同时也支持写成 Hive 表的格式;支持分区表
  • UDF 兼容 - 支持在 Flink SQL 内直接调用 Hive 的 UDF,UDTF 和 UDAF

与此同时,1.10.0 版本中对 batch 执行进行了进一步的优化(FLINK-14133),主要包括:

  • 向量化读取 ORC (FLINK-14135)
  • 基于比例的弹性内存分配 (FLIP-53)
  • Shuffle 的压缩 (FLINK-14845)
  • 基于新调度框架的优化 (FLINK-14735)

在此基础上将 Flink 做为计算引擎访问 Hive 的 meta 和数据,在 TPC-DS 10T benchmark 下性能达到 Hive 3.0 的 7 倍以上。

640-4.jpeg

SQL DDL 加强

Flink 1.10.0 支持在 SQL 建表语句中定义 watermark 和计算列,以 watermark 为例:

CREATE TABLEtable_name (
  WATERMARK FOR columnName AS <watermark_strategy_expression>
) WITH (
  ...
)

渠道文章宣传内页.png

除此以外,Flink 1.10.0 还在 SQL 中对临时函数/永久函数以及系统/目录函数进行了明确区分,并支持建立目录函数、临时函数以及临时系统函数:

CREATE [TEMPORARY|TEMPORARY SYSTEM] FUNCTION
[IF NOT EXISTS] [catalog_name.][db_name.]function_name
AS identifier [LANGUAGE JAVA|SCALA]

Python UDF 支持

Flink 从 1.9.0 版本开始增长了对 Python 的支持(PyFlink),但用户只能使用 Java 开发的 User-defined-function (UDF) ,具备必定的局限性。在 1.10.0 中咱们为 PyFlink 增长了原生 UDF 支持(FLIP-58),用户如今能够在 Table API/SQL 中注册并使用自定义函数,以下图所示:

图片.gif

同时也能够方便的经过 pip 安装 PyFlink:

pip install apache-flink

更多详细介绍,请参考:
https://enjoyment.cool/2020/0...

原生 Kubernetes 集成

Kubernetes (K8S) 是目前最为流行的容器编排系统,也是目前最流行的容器化应用发布平台。在旧版本当中,想要在 K8S 上部署和管理一个 Flink 集群比较复杂,须要对容器、算子及 kubectl 等 K8S 命令有所了解。

在 Flink 1.10 中,咱们推出了对 K8S 环境的原生支持(FLINK-9953),Flink 的资源管理器会主动和 Kubernetes 通讯,按需申请 pod,从而能够在多租户环境中以较少的资源开销启动 Flink,使用起来也更加的方便。

640-4.png

更多内容,参考 1.10.0 版本发布日志:

https://ci.apache.org/project...

结语

2019 年 1 月,阿里巴巴实时计算团队宣布 Blink 开源。整整一年以后,Flink 1.10.0 版本的发布宣告 Flink 和 Blink 的整合正式完成。咱们践行着本身的诺言,开放源码,更相信社区的力量,相信社区是开源协做精神与创新的摇篮。咱们也衷心但愿有更多的志同道合的小伙伴加入咱们,一块儿把 Apache Flink 作的愈来愈好!

福利

最后,送上福利:《Apache Flink 年度最佳实践》电子书免费下载啦!

640-5.jpeg

一次性公布来自 bilibili、美团点评、小米、快手、OPPO、菜鸟、Lyft、Netflix 等 9 篇深度文章,揭秘一线大厂实时平台构建实践。不容错过的精品电子书,大数据工程师必读实战“真经”!点击下方连接,即刻下载!

免费下载
《Apache Flink 年度最佳实践》>>>

目录以下:

  • 仅1年GitHub Star数翻倍,Apache Flink 作了什么?
  • Lyft基于Apache Flink的大规模准实时数据分析平台
  • Apache Flink在快手实时多维分析场景的应用
  • Bilibili基于Apache Flink的平台化探索与实践
  • 美团点评基于 Apache Flink 的实时数仓平台实践
  • 小米流式平台架构演进与实践
  • Netflix:Evolving Keystone to an Open Collaborative Real-time ETL Platform
  • OPPO 基于 Apache Flink 的实时数仓实践
  • 菜鸟供应链实时数仓的架构演进及应用场景
相关文章
相关标签/搜索