flink学习笔记-快速生成Flink项目

时间 2019-11-17

标签 flink 学习笔记快速生成项目繁體版

原文原文链接

说明：本文为《Flink大数据项目实战》学习笔记，想经过视频系统学习Flink这个最火爆的大数据计算框架的同窗，推荐学习课程：html

Flink大数据项目实战：http://t.cn/EJtKhazjava

1. 快速生成Flink项目

1.推荐开发工具git

idea+maven+gitgithub

2.推荐开发语言apache

Java或者Scala编程

https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/java_api_quickstart.htmlwindows

3.Flink项目构建步骤api

1）经过maven构建Flink项目架构

这里咱们选择构建1.6.2版本的Flink项目，打开终端输入以下命令：框架

mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion=1.6.2

项目构建过程当中须要输入groupId，artifactId，version和package

而后输入y确认

而后显示Maven项目构建成功

2）打开IDEA导入Flink 构建的maven项目

打开IDEA开发工具，点击open选项

选择刚刚建立的Flink项目

IDEA打开Flink项目

2. Flink Batch版WordCount

新建一个batch package

打开github Flink源码，将批处理WordCount代码copy到batch包下。

https://github.com/apache/flink/tree/master/flink-examples/flink-examples-batch/src/main/java/org/apache/flink/examples/java/wordcount

打开批处理WordCount代码：

右键选择run，运行Flink批处理WordCount，运行结果以下所示：

3. Flink Stream版WordCount

一样，流处理咱们也单首创建一个包stream

打开github Flink源码，将流处理WordCount代码copy到stream包下。

https://github.com/apache/flink/tree/master/flink-examples/flink-examples-streaming/src/main/java/org/apache/flink/streaming/examples/wordcount

打开流处理WordCount代码：

右键选择run，运行Flink流处理WordCount，运行结果以下所示：

（3）Flink核心概念与编程模型

1. Flink分层架构

1.1 Flink生态之核心组件栈

你们回顾一下Flink生态圈中的核心组件栈便可，前面已经详细讲过，这里就再也不赘叙。

1.2 Flink分层架构

Flink一共分为四个层级，具体以下图所示：

Flink 最下面的一层API为Stateful Stream Processing，它是Flink最底层的API，控制更灵活但通常不多使用。而后上面一层就是Flink Core（核心）API，它包含DataStream和DataSet API，应用层的用户常常使用 Core API。而后再上面一层就是 Table API，它至关于在Core API中能够定义数据的Table结构，能够作table操做。最上面一层就是SQL 操做，用户能够直接使用SQL语句对数据处理，更简单更方便。

注意：越底层的API越灵活，但越复杂。越上层的API越轻便，但灵活性差。

Stateful Stream Processing

a）它位于最底层，是Core API 的底层实现。

b）它是嵌入到Stream流里面的处理函数（processFunction）。

c）当Core API知足不了用户需求，能够利用低阶API构建一些新的组件或者算子。

d）它虽然灵活性高，但开发比较复杂，须要具有必定的编码能力。

Core API

a） DataSet API 是批处理API，处理有限的数据集。

b） DataStream API是流处理API，处理无限的数据集。

Table API & SQL

a）SQL 构建在Table 之上，都须要构建Table 环境。

b）不一样的类型的Table 构建不一样的Table 环境中。

c）Table 能够与DataStream或者DataSet进行相互转换。

d）Streaming SQL不一样于存储的SQL，最终会转化为流式执行计划。

1.3Flink DataFlow

Flink DataFlow基本套路：先建立Data Source读取数据，而后对数据进行转化操做，而后建立DataSink对数据输出。

结合代码和示意图理解DataFlow

Flink DataFlow 基本套路以下所示：

步骤1：构建计算环境(决定采用哪一种计算执行方式)

步骤2：建立Source(能够多个数据源)

步骤3：对数据进行不一样方式的转换(提供了丰富的算子)

步骤4：对结果的数据进行Sink(能够输出到多个地方)

并行化DataFlow

从上图能够看出Source的并行度为2，它们能够并行运行在不一样的节点上。Map的并行度也为2，source读取数据后作Stream Partition操做，source1将数据交给map1，source2将数据交给map2。keyBy（或者window等）的并行度为2，map处理后的数据须要通过shuffle操做，而后交给keyBy进行分组统计。Sink的并行度为1，keyBy最后分组统计后的数据交给sink，将数据进行输出操做。

算子间数据传递模式

从上图能够看出，Flink算子间的数据传递模式大概分为两种：

1.One-to-one streams：保持元素的分区和顺序，好比数据作map操做。

2.Redistributing streams：它会改变流的分区，从新分区策略取决于使用的算子

keyBy() (re-partitions by hashing the key) ：根据hash key对数据从新分区。

broadcast()：即为广播操做，好比map1有100条数据，发送给keyBy1是100条数据，发给keyBy2也是100条数据。

rebalance() (which re-partitions randomly)：即随机打散，数据随机分区发送给下游操做。

2. Windows

前面咱们已经了解了Flink的Stream流处理和Batch批处理，那么咱们这里讲的Windows操做是对一段数据进行操做，它能够按照固定数据量进行Windows操做，也能够按照固定时间进行windows操做，它是Stream 流处理所特有的窗口操做。

Flink Windows操做的类型大概分为如下几类：

Count Windows

顾名思义，是按照Events的数量进行操做，好比每3个Event作一次windows操做。

Time Windows

基于时间长度进行Windows操做

a） Tumbling Windows：即翻滚窗口，不会重叠，好比每隔3s操做一次。

b） Sliding Windows：即滑动窗口，有重叠，好比窗口大小为3s，每次向前滑动1s。

c） Session Windows：相似于Web编程里的Session，以不活动间隙做为窗口进行操做，好比每10s内没有活动，就会作一次Windows操做。

自定义Windows

当Flink内置的windows不能知足用户的需求，咱们能够自定义Windows操做。