awk 分析 nginx 日志

时间 2019-11-17

标签 awk 分析 nginx 日志栏目 Linux 繁體版

原文原文链接

Nginx日志格式：'$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'数组

日志记录：bash

1）统计日志中访问最多的10个IP日志

思路：对第一列进行去重，并输出出现的次数code

方法1：blog

awk '{a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2：rem

awk '{print $1}' access.log |sort |uniq -c |sort -k1 -nr |head -n10class

说明：a[$1]++ 建立数组a，以第一列做为下标，使用运算符++做为数组元素，元素初始值为0。处理一个IP时，下标是IP，元素加1，处理第二个IP时，下标是IP，元素加1，若是这个IP已经存在，则元素再加1，也就是这个IP出现了两次，元素结果是2，以此类推。所以能够实现去重，统计出现次数。awk

2）统计日志中访问大于100次的IPsed

方法1：awk '{a[$1]++}END{for(i in a){if(a[i]>100)print i,a[i]}}' access.logrequest

方法2：awk '{a[$1]++;if(a[$1]>100){b[$1]++}}END{for(i in b){print i,a[i]}}' access.log

说明：方法1是将结果保存a数组后，输出时判断符合要求的IP。方法2是将结果保存a数组时，并判断符合要求的IP放到b数组，最后打印b数组的IP。

3）统计2019年3月14日一天内访问最多的10个IP

思路：先过滤出这个时间段的日志，而后去重，统计出现次数

方法1:awk '$4>="[14/Mar/2019:00:00:01" && $4<="[14/Mar/2019:23:59:59" {a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2： sed -n '/\[14\/Mar\/2019:00:00:01/,/\[14\/Mar\/2019:23:59:59/p' access.log |sort |uniq -c |sort -k1 -nr |head -n10 #前提开始时间与结束时间日志中必须存在

4）统计访问最多的前10个页面（$request）

awk '{a[$7]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

5）统计每一个URL访问内容的总大小（$body_bytes_sent）

awk '{a[$7]++;size[$7]+=$10}END{for(i in a)print a[i],size[i],i}' access.log

6）统计每一个IP访问状态码数量（$status）

awk '{a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log

7）统计访问状态码为404的IP及出现次数

awk '{if($9~/404/)a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log