Flink入门（一）——Apache Flink介绍

时间 2019-11-18

原文原文链接

Apache Flink是什么？

在当代数据量激增的时代，各类业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源，愈来愈多的大数据处理技术开始涌入人们的视线，例如目前比较流行的大数据处理引擎Apache Spark,基本上已经取代了MapReduce成为当前大数据处理的标准。可是随着数据的不断增加，新技术的不断发展，人们逐渐意识到对实时数据处理的重要性。相对于传统的数据处理模式，流式数据处理有着更高的处理效率和成本控制能力。Flink 就是近年来在开源社区不断发展的技术中的可以同时支持高吞吐、低延迟、高性能的分布式处理框架。sql

数据架构的演变

如图所示，传统的单体数据架构最大的特色即是集中式数据存储，大多数将架构分为计算层和存储层。数据库

单体架构的初期效率很高，可是随着时间的推移，业务愈来愈多，系统逐渐变得很大，愈来愈难以维护和升级，数据库是惟一的准确数据源，每一个应用都须要访问数据库来获取对应的数据，若是数据库发生改变或者出现问题，则将对整个业务系统产生影响。windows

后来随着微服务架构的出现，企业开始采用微服务做为企业业务系统的架构体系。微服务架构的核心思想是：一个应用是由多个小的、相互独立的微服务组成，这些服务运行在本身的进程中，开发和发布都没有依赖。不一样的服务能依据不一样的业务需求，构建的不一样的技术架构之上，可以聚焦在有限的业务功能。如图网络

微服务架构架构

起初数据仓库主要仍是构建在关系型数据库之上。例如Oracle、Mysql等数据库，可是随着企业数据量的增加，关系型数据库已经没法支撑大规模数据集的存储和分析，由于愈来愈多的企业开始选择基于Hadoop构建企业级大数据平台。同时众多的Sql_on_hadhoop上构建不一样类型的数据应用变得简单而高效。框架

在构建企业数据仓库的过程当中，数据每每都是周期性的从业务系统中同步到大数据平台，完成一系列的ETL转换动做以后，最终造成了数据集市等应用。可是对于一些时间要求比较高的应用，例如实时报表统计，则必须有很是低的延时展现统计结果，为此业界提出了一套Lambda架构方案来处理不一样类型的数据。运维

大数据lambada架构分布式

大数据平台中包含批量计算的Batch Layer和实时计算的Speed Layer，经过在一套平台中将批计算和流计算整合在一块儿，例如使用Hadoop MapReduce进行批量数据的处理，使用Apache Storm进行实时数据的处理。这种架构在必定程度上解决了不一样计算类型的问题，可是带来的问题是框架太多会致使平台复杂度太高、运维成本高等。在一套资源管理平台中管理不一样类型的计算框架使用也是很是困难的事情。微服务

后来随着Apache Spark的分布式内存处理框架的出现，提出了将数据切分红微批的处理模式进行流式数据处理，从而可以在一套计算框架内完成批量计算和流式计算。但由于Spark自己是基于批处理模式的缘由，并不能完美且高效的处理原生的数据流，所以对流式计算支持的相对较弱，能够说Spark的出现本质上是在必定程度上对Hadoop架构进行了必定的升级和优化。oop

有状态流计算架构

数据产生的本质，实际上是一条条真实存在的事件，前面提到的不一样的架构其实都是在必定程度违背了这种本质，须要经过在必定时延的状况下对业务数据进行处理，而后获得基于业务数据统计的准确结果。实际上，基于流式计算技术局限性，咱们很难再数据产生的过程当中进行计算并直接产生统计结果，由于这不只对系统有很是高的要求，还必需要知足高性能、高吞吐、低延时等众多目标。

基于有状态计算的方式最大的优点是不须要将原始数据从新从外部存储中拿出来，从而进行全量计算，由于这种计算方式的代价多是很是高的。

Flink经过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。同时Flink支持高度容错的状态管理，防止状态在计算过程当中由于系统异常而出现丢失，Flink周期性地经过分布式快照技术Checkpoints实现状态的持久化维护，使得即便在系统停机或者异常的状况下都能计算出正确的结果。

Flink的具体优点有如下几点：

同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中惟一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。像Apache Spark也只能兼顾高吞吐和高性能特性，主要由于在Spark Streaming流式计算中没法作到低延迟保障；而流式计算框架Apache Storm只能支持低延迟和高性能特性，可是没法知足高吞吐的要求。而知足高吞吐、低延迟、高性能这三个目标对分布式流式计算框架来讲是很是重要的。
支持事件时间（Event Time）概念在流式计算领域中，窗口计算的地位举足轻重，但目前大多数框架窗口计算采用的都是系统时间（Process Time），也是事件传输到计算框架处理时，系统主机的当前时间。Flink可以支持基于事件时间（Event Time）语义进行窗口计算，也就是使用事件产生的时间，这种基于事件驱动的机制使得事件即便乱序到达，流系统也可以计算出精确的结果，保持了事件本来产生时的时序性，尽量避免网络传输或硬件系统的影响。
支持有状态计算 Flink在1.4版本中实现了状态管理，所谓状态就是在流式计算过程当中将算子的中间结果数据保存在内存或者文件系统中，等下一个事件进入算子后能够从以前的状态中获取中间结果中计算当前的结果，从而无须每次都基于所有的原始数据来统计结果，这种方式极大地提高了系统的性能，并下降了数据计算过程的资源消耗。对于数据量大且运算逻辑很是复杂的流式计算场景，有状态计算发挥了很是重要的做用。
支持高度灵活的窗口（windows）操做

在流处理应用中，数据是接二连三的，须要经过窗口的方式对流数据进行必定范围的聚合计算，例如统计在过去的1分钟内有多少用户点击某一网页，在这种状况下，咱们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行再计算。Flink将窗口划分为基于Time、Count、Session，以及Data-driven等类型的窗口操做，窗口能够用灵活的触发条件定制化来达到对复杂的流传输模式的支持，用户能够定义不一样的窗口触发机制来知足不一样的需求。
基于轻量级分布式快照（Snapshot）实现的容错 Flink可以分布式运行在上千个节点上，将一个大型计算任务的流程拆解成小的计算过程，而后将tesk分布到并行节点上进行处理。在任务执行过程当中，可以自动发现事件处理过程当中的错误而致使数据不一致的问题，好比：节点宕机、网路传输问题，或是因为用户由于升级或修复问题而致使计算服务重启等。在这些状况下，经过基于分布式快照技术的Checkpoints，将执行过程当中的状态信息进行持久化存储，一旦任务出现异常中止，Flink就可以从Checkpoints中进行任务的自动恢复，以确保数据在处理过程当中的一致性。
基于JVM实现独立的内存管理内存管理是全部计算框架须要重点考虑的部分，尤为对于计算量比较大的计算场景，数据在内存中该如何进行管理显得相当重要。针对内存管理，Flink实现了自身管理内存的机制，尽量减小JVM GC对系统的影响。另外，Flink经过序列化/反序列化方法将全部的数据对象转换成二进制在内存中存储，下降数据存储的大小的同时，可以更加有效地对内存空间进行利用，下降GC带来的性能降低或任务异常的风险，所以Flink较其余分布式处理的框架会显得更加稳定，不会由于JVM GC等问题而影响整个应用的运行。
Save Points（保存点）对于7*24小时运行的流式应用，数据源源不断地接入，在一段时间内应用的终止有可能致使数据的丢失或者计算结果的不许确，例如进行集群版本的升级、停机运维操做等操做。值得一提的是，Flink经过Save Points技术将任务执行的快照保存在存储介质上，当任务重启的时候能够直接从事先保存的Save Points恢复原有的计算状态，使得任务继续按照停机以前的状态运行，Save Points技术可让用户更好地管理和运维实时流式应用。

更多实时计算,Flink,Kafka,ES等相关技术博文，欢迎关注实时流式计算

本文由博客一文多发平台 OpenWrite 发布！