使用 shell 命令统计日志

经过使用 shell 命令能够很方便地对日志进行统计和分析,当服务有异常的时候,须要去排查日志,那么掌握一种统计日志的技巧就是必不可少的了。javascript

假设有一个包含下面内容的日志文件 access.log。咱们以统计这个文件的日志为例。html

date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"
date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"

不一样的服务对应的日志可能不同,本文使用示例日志的格式是:java

date | ip | method | url | status | time | bytes | referrer | user-agent | cookie

注意 mac 系统和 linux 系统中的命令行为可能不一样,如下命令请在 linux 系统中使用linux

排除特殊日志

统计日志时,咱们可能不关心 HEAD 请求,或者只关心 GET 请求,这里首先须要筛选日志,可使用 grep 命令。-v 的含义是排除匹配的文本行。正则表达式

grep GET access.log # 只统计 GET 请求
grep -v HEAD access.log # 不统计 HEAD 请求
grep -v 'HEAD\|POST' access.log # 不统计 HEAD 和 POST 请求

查看接口耗时状况

咱们能够将每行的 time 匹配出来,而后作一个排序。使用 awk 的 match 方法能够匹配正则:shell

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log

awk 命令使用方法以下:api

awk '{pattern + action}' {filenames}

咱们实际上只用到了 action:match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1] 这一段。数组

match 方法接收三个参数:须要匹配的文本、正则表达式、结果数组。$0 表明 awk 命令处理的每一行,结果数组是可选的,由于咱们要拿到匹配结果因此这里传入了一个 result 数组,用来存储匹配后的结果。cookie

注意这里的正则我没有使用 \d 来表示数字,由于 awk 指令默认使用 “EREs",不支持 \d 的表示,具体请看 linux shell 正则表达式(BREs,EREs,PREs)差别比较curl

result 数组实际上和 javascript 里的结果数组很像了,因此咱们打印出第二个元素,即匹配到的内容。执行完这行命令后结果以下:

9.703
0.337
8.829
9.962
11.822

固然实际上一天的日志多是成千上万条,咱们须要对日志进行排序,且只展现前 3 条。这里使用到 sort 命令。

sort 命令默认从小到大排序,且看成字符串排序。因此默认状况下使用 sort 命令以后 "11" 会排在 "8" 前面。那么须要使用 -n 指定按数字排序,-r 来按从大到小排序,而后咱们查看前 3 条:

awk '{ match($0, /time=([0-9]+\.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3

结果:

11.822
9.962
9.703

查看耗时最高的接口

固然咱们通常不会只查看接口耗时状况,还须要把具体日志也打印出来,上面的命令就不能知足要求了。

awk 的打印默认是按空格分隔的,意思是 2017-09-23 GET 这一行若是使用 awk '{print $1}' 会打印出 "2017-09-23",相似地,$2 会打印出 GET

根据日志特征,咱们可使用 | 来做为分隔符,这样就能打印出各个咱们感兴趣的值了。由于咱们想找出耗时最高的接口,那么咱们把 time、date 和 url 单独找出来。

awk 的 -F 参数用来自定义分隔符。而后咱们能够数一下三个部分按 | 分隔后分别是第几个:time 是第 6 个、date 是第 1 个、url 是第 4 个。

awk -F '|' '{print $6 $1 $4}' access.log

这样打出来结果为:

time=9.703 date=2017-09-23 13:32:50  url=/api/foo/bar?params=something
 time=0.337 date=2017-09-23 00:00:00  url=/api/foo/healthcheck
 time=8.829 date=2017-09-23 13:32:50  url=/api/foo/bar?params=anything
 time=9.962 date=2017-09-23 13:32:50  url=/api/foo/bar?params=everything
 time=11.822 date=2017-09-23 13:32:50  url=/api/foo/bar?params=nothing

由于咱们想按 time 来排序,而 sort 能够按列来排序,而列是按空格分隔的,咱们目前第一列是 time=xxx,是不能排序的,因此这里要想办法把 time= 给去掉,由于咱们很鸡贼地把耗时放在了第一列,那么其实再经过 time= 进行分隔一下就好了。

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'

结果:

9.703 date=2017-09-23 13:32:50  url=/api/foo/bar?params=something
0.337 date=2017-09-23 00:00:00  url=/api/foo/healthcheck
8.829 date=2017-09-23 13:32:50  url=/api/foo/bar?params=anything
9.962 date=2017-09-23 13:32:50  url=/api/foo/bar?params=everything
11.822 date=2017-09-23 13:32:50  url=/api/foo/bar?params=nothing

使用 sort-k 参数能够指定要排序的列,这里是第 1 列;再结合上面的排序,就能把耗时最高的日志打印出来了:

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3

结果:

11.822 date=2017-09-23 13:32:50  url=/api/foo/bar?params=nothing
9.962 date=2017-09-23 13:32:50  url=/api/foo/bar?params=everything
9.703 date=2017-09-23 13:32:50  url=/api/foo/bar?params=something

统计请求次数最多的接口

若是须要统计哪些接口天天请求量是最多的,只须要新引入 uniq 命令。

咱们已经能够经过 grep -v HEAD access.log | awk -F '|' '{print $4}' 来筛选出全部的 url,uniq 命令能够删除 相邻 的相同的行,而 -c 能够输出每行出现的次数。

因此咱们先把 url 排序以让相同的 url 放在一块儿,而后使用 uniq -c 来统计出现的次数:

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort  | uniq -c

由于示例日志数量太少,咱们假设日志里有多条,那么结果应该相似下面:

1  url=/api/foo/bar?params=anything
19  url=/api/foo/bar?params=everything
4  url=/api/foo/bar?params=nothing
5  url=/api/foo/bar?params=something

接下来再 sort 便可:

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort  | uniq -c | sort -k1nr | head -10
相关文章
相关标签/搜索