logstash之Filter插件

时间 2019-11-18

标签 logstash filter 插件栏目日志分析繁體版

原文原文链接

Logstash之因此强悍的主要缘由是filter插件；经过过滤器的各类组合能够获得咱们想要的结构化数据nginx

1：grok正则表达式

grok**正则表达式是logstash很是重要的一个环节**；能够经过grok很是方便的将数据拆分和索引git

语法格式：正则表达式

(?<name>pattern) 编程

？<name>表示要取出里面的值，pattern就是正则表达式vim

例子：收集控制台输入，而后将时间采集出来ruby

input {stdin{}}
filter {
   grok {
       match => {
            "message" => "(?<date>\d+\.\d+)\s+"
       }
   }
}
output {stdout{codec => rubydebug}}

2：定制化字段，取出想要的字段

仍是按照上面的例子：4.19 is luck day 而后取出每个字段app

input {stdin{}}
filter {
   grok {
       match => {
            "message" => "(?<date>\d+\.\d+)\s+(?<is>\w+)\s+(?<luck>\w+)\s+(?<day>\w+)"
       }
   }
}
output {stdout{codec => rubydebug}}

3：patterns正则表达式库

默认grok调用的是：/logstash-5.5.2/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.1.1/patterns 这个目录下的正则svg

上面的例子，能够这样写：oop

input {stdin{}}
filter {
   grok {
       match => {
            "message" => "%{NUMBER:date:float} %{WORD:is} %{WORD:luck} %{WORD:day}"
       }
   }
}
output {stdout{codec => rubydebug}}

结果截图：测试

4：grok将非结构化数据进行结构化

Nginx打印出的日志通常格式是：

192.168.77.1 - - [10/May/2018:12:12:40 +0800] "GET /plugins/ml/ml.svg HTTP/1.1" 304 0 "http://hadoop01/app/kibana" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" "-"

nginx这种日志是非格式化的，一般，咱们获取到日志后，还要使用mapreduce或者spark作一下清洗操做，就是将非格式化日志编程格式化日志；

在清洗的时候，若是日志的数据量比较大，那么也是须要花费必定的时间的；

因此可使用logstash的grok功能，将nginx的非格式化数据采集成格式化数据：

安装grok插件: bin/logstash-plugin install logstash-filter-grok

input {stdin{}}
filter {
   grok {
       match => {
                "message" => "%{IPORHOST:clientip} - - \[%{HTTPDATE:time_local}\] \"(?:%{WORD:request} %{NOTSPACE:request}(?:HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" %{NUMBER:status} %{NUMBER:body_bytes_sent} %{QS:http_referer} %{QS:agent} %{NOTSPACE:http_x_forwarded_for}"
       }
   }
}
output {stdout{codec => rubydebug}}

【注意：】不一样的nginx日志格式，应该对应不一样的正则

启动：

bin/logstash -f /home/angel/logstash-5.5.2/logstash_conf/filter_4.conf

在控制台输入日志：

192.168.77.1 - - [10/May/2018:12:12:40 +0800] "GET /plugins/ml/ml.svg HTTP/1.1" 304 0 "http://hadoop01/app/kibana" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" "-"

5：geoip查询

上面了解到logstash能够将nginx的非格式化日志进行格式化，那么在nginx的日志中有IP；每每会根据ip定位当前的地理位置，Logstash默认是安装了logstash-filter-geoip插件的

而后在kibana上以高德地图作展现

vim /conf/template/geoip.conf

input {stdin{}}
filter {
   grok {
       match => {
                 "message" => "%{IPORHOST:clientip} - - \[%{HTTPDATE:time_local}\] \"(%{WORD:request} %{NOTSPACE:request}(?:HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" %{NUMBER:status} %{NUMBER:body_bytes_sent} %{QS:http_referer} %{QS:agent} %{NOTSPACE:http_x_forwarded_for}"
       }
   }
   geoip{
                source => "clientip". #设置解析的ip字段
               target => “geoip”. #将解析的geoip保存在一个字段内
       }
}
output {stdout{codec => rubydebug}}

启动：bin/logstash -f /usr/local/elk/logstash-5.5.2/conf/template/geoip.conf

向控制台输入nginx日志：

119.151.192.24 - - [10/May/2018:12:12:40 +0800] "GET /plugins/ml/ml.svg HTTP/1.1" 304 0 "http://hadoop01/app/kibana" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" "-"

截图展现：

可是有一些国家城市可能会更名字，为了更准确的定位ip的经纬度，能够下载GeoLite2-City.mmdb的ip-经纬度库

下载地址：http://geolite.maxmind.com/download/geoip/database/GeoLite2-City.mmdb.gz(课程内提供)

而后在编写的时候，指定下载的ip-经纬度库，同时，咱们会发现返回的信息太多了，有不少不是咱们想要的，那么也能够指定哪些是本身想要的：

input {stdin{}}
filter {
   grok {
       match => {
                "message" => "%{IPORHOST:clientip} - - \[%{HTTPDATE:time_local}\] \"(?:%{WORD:request} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})\" %{NUMBER:status} %{NUMBER:body_bytes_sent} %{QS:http_referer} %{QS:agent} %{NOTSPACE:http_x_forwarded_for}"
       }
   }
   geoip{
                source => "clientip"
               database => "/home/angel/logstash-5.5.2/conf/GeoLite2-City.mmdb"
               target => "geoip"
               add_field => [ "[geoip][coordinates]", "%{[geoip][longitude]}" ]
               add_field => [ "[geoip][coordinates]", "%{[geoip][latitude]}" ]
               fields => ["country_name", "region_name", "city_name",  "latitude", "longitude"]
# remove_field => [ "[geoip][longitude]", "[geoip][latitude]" ]
       }
}
output {stdout{codec => rubydebug}}

6：Key-value拆分

在采集的日志中，每每出现相似于这样的URL：

https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_6858188417104403771%22%7D&n_type=0&p_from=1

相似这种url，字段的信息是按照&拼接而成的，因此须要把这些url进行拆分

vim k_v_split.conf

input {
   stdin {
   }
}
filter {
         kv {
               prefix => "key_"
                source => "message"
               field_split => "&"
               value_split => "="
           }
}
output {
   stdout{codec=>rubydebug}
}

启动：bin/logstash -f /usr/local/elk/logstash-5.5.2/conf/template/k_v_split.conf

向控制台输入：

https://www.baidu.com/s?wd=哈哈，这就是测试&a=1&b=2&c=3&d=4&e=5

结果截图: