说明:本文为《Flink大数据项目实战》学习笔记,想经过视频系统学习Flink这个最火爆的大数据计算框架的同窗,推荐学习课程:html
Flink大数据项目实战:http://t.cn/EJtKhazjava
1.推荐开发工具git
idea+maven+gitgithub
2.推荐开发语言apache
Java或者Scala编程
https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/java_api_quickstart.htmlwindows
3.Flink项目构建步骤api
1)经过maven构建Flink项目架构
这里咱们选择构建1.6.2版本的Flink项目,打开终端输入以下命令:框架
mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion=1.6.2
项目构建过程当中须要输入groupId,artifactId,version和package
而后输入y确认
而后显示Maven项目构建成功
2)打开IDEA导入Flink 构建的maven项目
打开IDEA开发工具,点击open选项
选择刚刚建立的Flink项目
IDEA打开Flink项目
新建一个batch package
打开github Flink源码,将批处理WordCount代码copy到batch包下。
打开批处理WordCount代码:
右键选择run,运行Flink批处理WordCount,运行结果以下所示:
一样,流处理咱们也单首创建一个包stream
打开github Flink源码,将流处理WordCount代码copy到stream包下。
打开流处理WordCount代码:
右键选择run,运行Flink流处理WordCount,运行结果以下所示:
你们回顾一下Flink生态圈中的核心组件栈便可,前面已经详细讲过,这里就再也不赘叙。
Flink一共分为四个层级,具体以下图所示:
Flink 最下面的一层API为Stateful Stream Processing,它是Flink最底层的API,控制更灵活但通常不多使用。而后上面一层就是Flink Core(核心)API,它包含DataStream和DataSet API,应用层的用户常常使用 Core API。而后再上面一层就是 Table API,它至关于在Core API中能够定义数据的Table结构,能够作table操做。最上面一层就是SQL 操做,用户能够直接使用SQL语句对数据处理,更简单更方便。
注意:越底层的API越灵活,但越复杂。越上层的API越轻便,但灵活性差。
a)它位于最底层,是Core API 的底层实现。
b)它是嵌入到Stream流里面的处理函数(processFunction)。
c)当Core API知足不了用户需求,能够利用低阶API构建一些新的组件或者算子。
d)它虽然灵活性高,但开发比较复杂,须要具有必定的编码能力。
a) DataSet API 是批处理API,处理有限的数据集。
b) DataStream API是流处理API,处理无限的数据集。
a)SQL 构建在Table 之上,都须要构建Table 环境。
b)不一样的类型的Table 构建不一样的Table 环境中。
c)Table 能够与DataStream或者DataSet进行相互转换。
d)Streaming SQL不一样于存储的SQL,最终会转化为流式执行计划。
Flink DataFlow基本套路:先建立Data Source读取数据,而后对数据进行转化操做,而后建立DataSink对数据输出。
结合代码和示意图理解DataFlow
Flink DataFlow 基本套路以下所示:
步骤1:构建计算环境(决定采用哪一种计算执行方式)
步骤2:建立Source(能够多个数据源)
步骤3:对数据进行不一样方式的转换(提供了丰富的算子)
步骤4:对结果的数据进行Sink(能够输出到多个地方)
并行化DataFlow
从上图能够看出Source的并行度为2,它们能够并行运行在不一样的节点上。Map的并行度也为2,source读取数据后作Stream Partition操做,source1将数据交给map1,source2将数据交给map2。keyBy(或者window等)的并行度为2,map处理后的数据须要通过shuffle操做,而后交给keyBy进行分组统计。Sink的并行度为1,keyBy最后分组统计后的数据交给sink,将数据进行输出操做。
算子间数据传递模式
从上图能够看出,Flink算子间的数据传递模式大概分为两种:
1.One-to-one streams:保持元素的分区和顺序,好比数据作map操做。
2.Redistributing streams: 它会改变流的分区,从新分区策略取决于使用的算子
keyBy() (re-partitions by hashing the key) :根据hash key对数据从新分区。
broadcast():即为广播操做,好比map1有100条数据,发送给keyBy1是100条数据,发给keyBy2也是100条数据。
rebalance() (which re-partitions randomly):即随机打散,数据随机分区发送给下游操做。
前面咱们已经了解了Flink的Stream流处理和Batch批处理,那么咱们这里讲的Windows操做是对一段数据进行操做,它能够按照固定数据量进行Windows操做,也能够按照固定时间进行windows操做,它是Stream 流处理所特有的窗口操做。
Flink Windows操做的类型大概分为如下几类:
顾名思义,是按照Events的数量进行操做,好比每3个Event作一次windows操做。
基于时间长度进行Windows操做
a) Tumbling Windows:即翻滚窗口,不会重叠,好比每隔3s操做一次。
b) Sliding Windows:即滑动窗口,有重叠,好比窗口大小为3s,每次向前滑动1s。
c) Session Windows:相似于Web编程里的Session,以不活动间隙做为窗口进行操做,好比每10s内没有活动,就会作一次Windows操做。
当Flink内置的windows不能知足用户的需求,咱们能够自定义Windows操做。