Fluentd Regexp patterns

时间 2019-11-10

标签 fluentd regexp patterns 繁體版

原文原文链接

举例：apache2 Parser Plugin正则表达式

expression /^(?<host>[^ ]*) [^ ]* (?<user>[^ ]*) \[(?<time>[^\]]*)\] "(?<method>\S+)(?: +(?<path>[^ ]*) +\S*)?" (?<code>[^ ]*) (?<size>[^ ]*)(?: "(?<referer>[^\"]*)" "(?<agent>[^\"]*)")?$/
time_format %d/%b/%Y:%H:%M:%S %z

example:express

192.168.0.1 - - [28/Feb/2013:12:00:00 +0900] "GET / HTTP/1.1" 200 777 "-" "Opera/12.0"

This incoming event is parsed as:apache

time:
1362020400 (28/Feb/2013:12:00:00 +0900)

record:
{
  "user"   : nil,
  "method" : "GET",
  "code"   : 200,
  "size"   : 777,
  "host"   : "192.168.0.1",
  "path"   : "/",
  "referer": nil,
  "agent"  : "Opera/12.0"
}

下面具体分析上面正则表达式，大体结构为 expression /^(?<field1>[^ ]*)(?<field2>[^\\]*)\\(?<field3>[^ ]*)$/spa

(?<field1>[^ ]*)表明要提取一个field1的字段，内容是连续不为空格的字符
(?<field2>[^\\]*)表明要提取一个field1的字段，内容是连续不为反斜杠的字符
以此类推，这些字段之间还能够结合其余字符或者正则表达式，比方[^\d]，
整个expression必须可以匹配event日志，不然会提示parse error。(?:          )? 这种结构代表中间的正则表达式匹配的字段可能存在或者不存在，比方说下面的例子，path字段为两个空格之间的一段字符，可是也有可能这一段不存在，由于为了不出现parse error，能够用(?: )?这种结构。(?: +(?<path>[^ ]*) +\S*)?