Elastic：在 Grok 中运用 custom pattern 来定义 pattern

时间 2020-07-06

标签 elastic grok 运用 custom pattern 定义繁體版

原文原文链接

咱们先来看一下以下的一个日志：数据结构

157.97.192.70 2019 09 29 00:39:02.912 myserver Process 107673 Initializing

在上面的日志中，咱们能够看到一个日期信息：2019 09 29 00:39:02.912。它是被空格字符串所分开，若是没有正确的 Grok pattern 来帮咱们提取的话，咱们将会很难提取到一个完整的日期。咱们的日志信息符合以下的一个数据结构：spa

ip timestamp server Process process_id action

首先，咱们打开 Kibana:.net

咱们能够先提取 IP:3d

以后的，就是年，月，日，及时间。咱们能够经过以下的方式来进行提取：日志

运用 YEAY 来提取年份
运用 MONTHNUM 来提取月份
运用 MONTHDAY 来提取日期
运用 TIME 来提取时间
运用 WORD 来提取一个单词
运用 NUMBER 来提取一个数值
对于 Process 来讲，咱们就不提取了，忽略它

这样，咱们能够使用以下的 Grok pattern:code

%{IP:ip} %{YEAR:year} %{MONTHNUM:month} %{MONTHDAY:day} %{TIME:time} %{WORD:server} Process %{NUMBER:process_id} %{WORD:action}

显然，它正确地解析了咱们的日志，可是美中不足的是咱们最终须要的是一个真正的日期，而不是用 year, month, day, time 来表示的一个时间。咱们能够点击上面的 custerm pattern，并输入一下的句子：server

EVENTDATE %{YEAR} %{MONTHNUM} %{MONTHDAY} %{TIME}

在上面，咱们定义了 EVENDATE 为 YEAR， MONTHNUM, MONTHDAY 及 TIME 的组合。那么咱们该如和应用上面的 custom patttern呢？blog

咱们必须修改上面的 Grok pattern 为：ip

%{IP:ip} %{EVENTDATE:@timestamp} %{WORD:server} Process %{NUMBER:process_id} %{WORD:action}

从上面，咱们能够看出来，咱们的 EVENTDATE 起做用了。它正确地解析了咱们的时间。字符串

那么在咱们实际的使用中，咱们该如何地应用呢？

咱们能够建立以下的一个命令：

POST /_ingest/pipeline/_simulate
{
  "pipeline": {
    "processors": [
      {
        "grok": {
          "field": "message",
          "patterns": [
            "%{IP:ip} %{EVENTDATE:@timestamp} %{WORD:server} Process %{NUMBER:process_id} %{WORD:action}"
          ],
          "pattern_definitions": {
            "EVENTDATE": "%{YEAR} %{MONTHNUM} %{MONTHDAY} %{TIME}"
          }
        }
      }
    ]
  },
  "docs": [
    {
      "_source": {
        "message": "157.97.192.70 2019 09 29 00:39:02.912 myserver Process 107673 Initializing"
      }
    }
  ]
}

运行上面的命令：

{
  "docs" : [
    {
      "doc" : {
        "_index" : "_index",
        "_type" : "_doc",
        "_id" : "_id",
        "_source" : {
          "server" : "myserver",
          "process_id" : "107673",
          "@timestamp" : "2019 09 29 00:39:02.912",
          "ip" : "157.97.192.70",
          "action" : "Initializing",
          "message" : "157.97.192.70 2019 09 29 00:39:02.912 myserver Process 107673 Initializing"
        },
        "_ingest" : {
          "timestamp" : "2020-06-15T08:33:01.28191Z"
        }
      }
    }
  ]
}

上面显示咱们的日志被正确地解析并结构化。

另一种方法是经过 set processor 来把上面的日期相关的字段来组成咱们须要的 @timestamp 字段。

POST /_ingest/pipeline/_simulate
{
  "pipeline": {
    "processors": [
      {
        "grok": {
          "field": "message",
          "patterns": [
            "%{IP:ip} %{YEAR} %{MONTHNUM} %{MONTHDAY} %{TIME} %{WORD:server} Process %{NUMBER:process_id} %{WORD:action}"
          ]
        }
      },
      {
        "set": {
          "field": "@timestamp",
          "value": "{{year}} {{month}} {{day}} {{time}}"
        }
      }
    ]
  },
  "docs": [
    {
      "_source": {
        "message": "157.97.192.70 2019 09 29 00:39:02.912 myserver Process 107673 Initializing"
      }
    }
  ]
}

在上面，咱们经过：

      {
        "set": {
          "field": "@timestamp",
          "value": "{{year}} {{month}} {{day}} {{time}}"
        }
      }

来把 @timestamp 进行定义，它组合了 year, month, day 及 time 的值。

转载自：https://blog.csdn.net/UbuntuTouch/article/details/106764157