通常logstash更经常使用于ELK日志监控系统,做为数据管道php
Logstash:接收,处理,转发日志
web
Elasticsearch:文档型数据库,实时的分布式搜索和分析引擎
正则表达式
Kibana:查询、生成报表的web GUI
redis
Logstash 有两个必要元素:input 和 output ,一个可选元素:filter。shell
input:采集数据,指定数据来源。能够是文件路径,也能够是kafka的某个topic、redis。
数据库
filter:筛选、处理数据,剔除多余的数据,生成想要的索引。
express
output:将数据传输到目的地,能够是具体文件路径,也能够是kafka、redis。
apache
在安装目录bin文件夹里新建一个logstash.conf,用来配置上述所说的输出输出等,将会覆盖logstash.yml默认设置。
通常配置以下:json
# 输入输入 input { stdin {} } # 数据处理 filter { grok { match => ["message", "%{COMBINEDAPACHELOG}"] } } # 数据输出 output { stdout { codec => rubydebug } }
配置文件语法相似Ruby后端
filter中的配置,基本格式以下,plugin都是官方提供的,针对文本作处理,好比正则表达式啊(grok),按固定的格式作切分(kv)等等。选择正确的plugin能够更快速的帮助你解析日志
filter { plugin { XX => "YY" } if expression { plugin { XX => "YY" } } else if expression { plugin { XX => "YY" } } else { plugin { XX => "YY" } } plugin { XX => "YY" } }
以何种规则从字符串中提取出结构化的信息,grok是logstash里的一款插件,能够使用正则表达式匹配日志,上文中的%{COMBINEDAPACHELOG}是内置的正则,用来匹配apache access日志
默认正则:
# Log formats SYSLOGBASE %{SYSLOGTIMESTAMP:timestamp} (?:%{SYSLOGFACILITY} )?%{SYSLOGHOST:logsource} %{SYSLOGPROG}: COMMONAPACHELOG %{IPORHOST:clientip} %{USER:ident} %{USER:auth} \[%{HTTPDATE:timestamp}\] "(?:%{WORD:verb} %{NOTSPACE:request}(?: HTTP/%{NUMBER:httpversion})?|%{DATA:rawrequest})" %{NUMBER:response} (?:%{NUMBER:bytes}|-) COMBINEDAPACHELOG %{COMMONAPACHELOG} %{QS:referrer} %{QS:agent} # Log Levels LOGLEVEL ([A-a]lert|ALERT|[T|t]race|TRACE|[D|d]ebug|DEBUG|[N|n]otice|NOTICE|[I|i]nfo|INFO|[W|w]arn?(?:ing)?|WARN?(?:ING)?|[E|e]rr?(?:or)?|ERR?(?:OR)?|[C|c]rit?(?:ical)?|CRIT?(?:ICAL)?|[F|f]atal|FATAL|[S|s]evere|SEVERE|EMERG(?:ENCY)?|[Ee]merg(?:ency)?)
mutate { split=>{"error_request_info"=>",fromuid"} add_field=>{"error_uri"=>"%{error_request_info[0]}"} remove_field=>["error_request_info"] }
#好比解析URL的querystring: a=1&b=2&c=3 filter { kv { field_split => "&" } }
#好比日志为:xxxxxxxxx:xxxxxx&result={"data":"1"}:xxxxxx filter { json { #假设数据经过grok预处理,将result内容捕获 source => "result" } }
#经过json encode后 { "data": "1" }
if "/app/log/logfront" in [content] { # 特定的处理 drop {} }
配置保存解析结果