2.5 Apache Flink EventTime与Window

1. EventTime的引入

在Flink的流式处理中,绝大部分的业务都会使用eventTime,通常只在eventTime没法使用时,才会被迫使用ProcessingTime或者IngestionTime。bash

若是要使用EventTime,那么须要引入EventTime的时间属性,引入方式以下所示:网络

val env = StreamExecutionEnvironment.getExecutionEnvironment 
// 从调用时刻开始给env建立的每个stream追加时间特征 
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
复制代码

2. Watermark

2.1 基本概念

咱们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分状况下,流到operator的数据都是按照事件产生的时间顺序来的,可是也不排除因为网络、背压等缘由,致使乱序的产生,所谓乱序,就是指Flink接收到的事件的前后顺序不是严格按照事件的Event Time顺序排列的。socket

图 数据的乱序.png

那么此时出现一个问题,一旦出现乱序,若是只根据eventTime决定window的运行,咱们不能明确数据是否所有到位,但又不能无限期的等下去,此时必需要有个机制来保证一个特定的时间后,必须触发window去进行计算了,这个特别的机制,就是Watermark。ide

Watermark是一种衡量Event Time进展的机制,它是数据自己的一个隐藏属性,数据自己携带着对应的Watermark。spa

Watermark是用于处理乱序事件的,而正确的处理乱序事件,一般用Watermark机制结合window来实现。3d

数据流中的Watermark用于表示timestamp小于Watermark的数据,都已经到达了,所以,window的执行也是由Watermark触发的。日志

Watermark能够理解成一个延迟触发机制,咱们能够设置Watermark的延时时长t,每次系统会校验已经到达的数据中最大的maxEventTime,而后认定eventTime小于maxEventTime - t的全部数据都已经到达,若是有窗口的中止时间等于maxEventTime – t,那么这个窗口被触发执行。code

有序流的Watermarker以下图所示:(Watermark设置为0)cdn

图 有序数据的Watermark.png

乱序流的Watermarker以下图所示:(Watermark设置为2)blog

图 无序数据的Watermark.png

当Flink接收到每一条数据时,都会产生一条Watermark,这条Watermark就等于当前全部到达数据中的maxEventTime - 延迟时长,也就是说,Watermark是由数据携带的,一旦数据携带的Watermark比当前未触发的窗口的中止时间要晚,那么就会触发相应窗口的执行。因为Watermark是由数据携带的,所以,若是运行过程当中没法获取新的数据,那么没有被触发的窗口将永远都不被触发。

上图中,咱们设置的容许最大延迟到达时间为2s,因此时间戳为7s的事件对应的Watermark是5s,时间戳为12s的事件的Watermark是10s,若是咱们的窗口1是1s~5s,窗口2是6s~10s,那么时间戳为7s的事件到达时的Watermarker刚好触发窗口1,时间戳为12s的事件到达时的Watermark刚好触发窗口2。

2.2 Watermark的引入

val env = StreamExecutionEnvironment.getExecutionEnvironment
 
// 从调用时刻开始给env建立的每个stream追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
 
val stream = env.readTextFile("eventTest.txt").assignTimestampsAndWatermarks(
  new BoundedOutOfOrdernessTimestampExtractor[String](Time.milliseconds(200)) {
  override def extractTimestamp(t: String): Long = {
     // EventTime是日志生成时间,咱们从日志中解析EventTime
     t.split(" ")(0).toLong
  }
})
复制代码

3. EventTimeWindow API

当使用EventTimeWindow时,全部的Window在EventTime的时间轴上进行划分,也就是说,在Window启动后,会根据初始的EventTime时间每隔一段时间划分一个窗口,若是Window大小是3秒,那么1分钟内会把Window划分为以下的形式:

[00:00:00,00:00:03)
[00:00:03,00:00:06)
...
[00:00:57,00:01:00)
复制代码

若是Window大小是10秒,则Window会被分为以下的形式:

[00:00:00,00:00:10)
[00:00:10,00:00:20)
...
[00:00:50,00:01:00)
复制代码

注意,窗口是左闭右开的,形式为:[window_start_time,window_end_time)。

Window的设定无关数据自己,而是系统定义好了的,也就是说,Window会一直按照指定的时间间隔进行划分,不论这个Window中有没有数据,EventTime在这个Window期间的数据会进入这个Window。

Window会不断产生,属于这个Window范围的数据会被不断加入到Window中,全部未被触发的Window都会等待触发,只要Window还没触发,属于这个Window范围的数据就会一直被加入到Window中,直到Window被触发才会中止数据的追加,而当Window触发以后才接受到的属于被触发Window的数据会被丢弃。

Window会在如下的条件知足时被触发执行:

  • watermark时间 >= window_end_time;
  • 在[window_start_time,window_end_time)中有数据存在。

咱们经过下图来讲明Watermark、EventTime和Window的关系。

3.1 滚动窗口(TumblingEventTimeWindows)

// 获取执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
 
// 建立SocketSource
val stream = env.socketTextStream("localhost", 11111)
 
// 对stream进行处理并按key聚合
val streamKeyBy = stream.assignTimestampsAndWatermarks(
  new BoundedOutOfOrdernessTimestampExtractor[String](Time.milliseconds(3000)) {
     override def extractTimestamp(element: String): Long = {
       val sysTime = element.split(" ")(0).toLong
       println(sysTime)
       sysTime
     }}).map(item => (item.split(" ")(1), 1)).keyBy(0)
 
// 引入滚动窗口
val streamWindow = streamKeyBy.window(TumblingEventTimeWindows.of(Time.seconds(10)))
 
// 执行聚合操做
val streamReduce = streamWindow.reduce(
  (item1, item2) => (item1._1, item1._2 + item2._2)
)
 
// 将聚合数据写入文件
streamReduce.print
 
// 执行程序
env.execute("TumblingWindow")
复制代码

结果是按照Event Time的时间窗口计算得出的,而无关系统的时间(包括输入的快慢)。

3.2 滑动窗口(SlidingEventTimeWindows)

// 获取执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
 
// 建立SocketSource
val stream = env.socketTextStream("localhost", 11111)
 
// 对stream进行处理并按key聚合
val streamKeyBy = stream.assignTimestampsAndWatermarks(
  new BoundedOutOfOrdernessTimestampExtractor[String](Time.milliseconds(0)) {
     override def extractTimestamp(element: String): Long = {
       val sysTime = element.split(" ")(0).toLong
       println(sysTime)
       sysTime
     }}).map(item => (item.split(" ")(1), 1)).keyBy(0)
 
// 引入滚动窗口
val streamWindow = streamKeyBy.window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))
 
// 执行聚合操做
val streamReduce = streamWindow.reduce(
  (item1, item2) => (item1._1, item1._2 + item2._2)
)
 
// 将聚合数据写入文件
streamReduce.print
 
// 执行程序
env.execute("TumblingWindow")
复制代码

3.3 会话窗口(EventTimeSessionWindows)

相邻两次数据的EventTime的时间差超过指定的时间间隔就会触发执行。若是加入Watermark,那么当触发执行时,全部知足时间间隔而尚未触发的Window会同时触发执行。

// 获取执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

// 建立SocketSource
val stream = env.socketTextStream("localhost", 11111)

// 对stream进行处理并按key聚合
val streamKeyBy = stream.assignTimestampsAndWatermarks(
 new BoundedOutOfOrdernessTimestampExtractor[String](Time.milliseconds(0)) {
    override def extractTimestamp(element: String): Long = {
      val sysTime = element.split(" ")(0).toLong
      println(sysTime)
      sysTime
    }}).map(item => (item.split(" ")(1), 1)).keyBy(0)

// 引入滚动窗口
val streamWindow = streamKeyBy.window(EventTimeSessionWindows.withGap(Time.seconds(5)))

// 执行聚合操做
val streamReduce = streamWindow.reduce(
 (item1, item2) => (item1._1, item1._2 + item2._2)
)

// 将聚合数据写入文件
streamReduce.print

// 执行程序
env.execute("TumblingWindow")
复制代码
相关文章
相关标签/搜索