利用MongoDB分析Nginx日志

时间 2019-11-07

原文原文链接

原文地址:html

http://52sox.com/use-mongodb-...python

在项目开发过程当中,老是离不开日志解析的工做,虽然有些时候以为确实挺繁琐的,可是静下心来会发现有时候也是挺有趣的1件工做。
在这里,咱们要从日志文件中找出IP访问最多的10条记录,而后判断其是否合法,从而采起对应的措施。nginx

日志解析流程

正常状况下,关于Nginx日志解析的流程以下所示:正则表达式

通常状况下咱们会对要解析的日志提早进行切分,经常使用的方式是按照日期,而后保存1个星期的日志。而后接下来就是日志的解析了,在这个过程当中会使用到一些工具或编程语言,例如awk、grep、perl、python。
最后的入库和可视化处理通常视业务而定,没有强制的要求。sql

日志查询的解决方案

而关于Nginx日志解析的经常使用解决方案主要有以下4种方式:mongodb

经过awk和grep进行解析数据库
经过Postgresql外联表进行日志的映射编程
经过Python与MongoDB的组合来进行日志查询api
经过ELK这个开源套件进行查询微信

其中Postgresql外联表的方式在以前公司的时候已经使用过,固然是对公司多个3GB大小的日志进行处理。而第1种和第4种解决方案没有太多的实践的经验,这里咱们主要来看第2种解决方案。

日志格式

关于日志解析处理,咱们比较经常使用的方式是使用正则表达式来进行匹配,而经常使用的1个库是nginxparser,咱们能够直接经过pip进行安装。固然还有其余的方式来进行解析,这个要视业务而定。
在日志解析中,比较重要的是日志的格式,默认状况下Nginx的日志格式以下:

log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                   '$status $body_bytes_sent "$http_referer" '
                   '"$http_user_agent" "$http_x_forwarded_for"'
                   '$upstream_addr $upstream_response_time $request_time;

下面咱们来看实际业务中的1个应用。以前公司有1个抢微信红包的活动,固然有用户反映好几天都没法抢到1个红包。所以,咱们团队成员认为可能在这个过程当中存在做弊的现象,所以便决定对Nginx的日志进行解析。详细内容能够点击优化微信红包抢购系统。
下面是1条真实的日志的记录:

101.226.89.14 - - [10/Jul/2016:07:28:32 +0800] "GET /pocketmoney-2016-XiKXCpCK.html HTTP/1.1" 302 231 "-" "Mozilla/5.0 (Linux; Android 5.1; OPPO R9tm Build/LMY47I) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/37.0.0.0 Mobile MQQBrowser/6.2 TBS/036548 Safari/537.36 MicroMessenger/6.3.22.821 NetType/WIFI Language/zh_CN"

日志分析

经过awk进行解析

接着,咱们来看下如何使用awk解析出IP访问最多的记录,关于awk语法能够参考进行学习:

dog@dog-pc:~$ awk '{a[$1]++}END{for(i in a)print i,a[i]}' nginx.log |sort -t ' ' -k2 -rn|head -n 10
111.167.50.208 26794
183.28.6.143 16244
118.76.216.77 9560
14.148.114.213 3609
183.50.96.127 3377
220.115.235.21 3246
222.84.160.249 2905
121.42.0.16 2212
14.208.240.200 2000
14.17.37.143 1993

默认状况下,awk以空格做为分隔符号,所以$1将获取到Nginx默认格式中的远程地址。在这里,咱们经过定义1个字段,使用IP做为键名,若是对应的键名存在则将其数量加1处理。最后咱们遍历这个字典,以后经过数量进行排序,最后经过head获取10条记录。
固然这种操做方式是有较大偏差的,由于咱们没有指定状态码等其余条件,下面咱们来看根据状态码和请求方式这2个条件后过滤的数据:

dog@dog-pc:~$ awk '{if($9>0 && $9==200 && substr($6,2)== "GET") a[$1]++}END{for(i in a)print i,a[i]}' nginx.log|sort -t ' ' -k2 -rn|head -n 10
222.84.160.249 2856
183.28.6.143 2534
116.1.127.110 1625
14.208.240.200 1521
14.17.37.143 1335
219.133.40.13 1014
219.133.40.15 994
14.17.37.144 988
14.17.37.161 960
183.61.51.195 944

这样咱们就能够将这10个IP进行分析,考虑下一步的操做,好比经过iptables组合禁止该IP的访问或限制其访问的次数等。

经过Postgresql

经过Postgresql入库后使用SQL进行查询的方式能够经过以下2种图片来查看:

在上图中主要是查看日志中请求状态码的总数量。而下图是对状态码为200的前10条IP的筛选:

能够看到基本上与上面awk解析的方式一致。

经过MongoDB进行查询

咱们知道,MongoDB是1个文档型数据库,经过这个数据库咱们辅助解决关系型数据库一些不太擅长的工做。
在Python中,主要的MongoDB客户端驱动是PyMongo,咱们能够经过以下的方式创建1个链接:

In [1]: from pymongo import MongoClient
In [2]: client = MongoClient()

因为这里咱们使用的是默认的端口和地址,所以在MongoClient类中不传入任何的参数。
在这里,咱们先说下咱们插入到MongoDB中日志的格式:

{
    "status": 302, //HTTP状态码
    "addr": "101.226.89.14", //远程IP地址
    "url": "-",
    "req": "/pocketmoney-2016-XiCXCpCK.html", //请求的地址
    "agent": "Mozilla/5.0 (Linux; Android 5.1; OPPO R9tm Build/LMY47I) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/37.0.0.0 Mobile MQQBrowser/6.2 TBS/036548 Safari/537.36 MicroMessenger/6.3.22.821 NetType/WIFI Language/zh_CN", //请求的user-agent
    "referer": "NetType/WIFI",
    "t": "2016/07/10 06:28:32", //请求的时间
    "size": 231, //响应的大小
    "method": "GET", //请求的方法
    "user": "-" //用户名称
}

在这里咱们经过Python进行解析后,组装成如上的格式后插入到MongoDB中,在这里主要用到的是MongoDB文档对象的insert_one方法插入1条记录。

db = client['log']
col = db['nginx']
data = {}
...
col.insert_one(data)

接着咱们开始对上述的记录进行查询操做,主要是经过MongoDB提供的map-reduce来实现聚合操做,其对应的Python代码为:

In [3]: db = client['log']
In [4]: col = db['nginx']
In [5]: pipeline = [
    ...: {"$match":{"status":200}},
    ...: {"$group":{"_id":"$addr","count":{"$sum":1}}},
    ...: {"$sort":{"count":-1}},
    ...: {"$limit":10}
    ...: ]
In [6]: list(col.aggregate(pipeline))
Out[6]: 
[{u'_id': u'222.84.160.249', u'count': 2856},
 {u'_id': u'183.28.6.143', u'count': 2534},
 {u'_id': u'116.1.127.110', u'count': 1625},
 {u'_id': u'14.208.240.200', u'count': 1521},
 {u'_id': u'14.17.37.143', u'count': 1335},
 {u'_id': u'219.133.40.13', u'count': 1014},
 {u'_id': u'219.133.40.15', u'count': 994},
 {u'_id': u'14.17.37.144', u'count': 988},
 {u'_id': u'14.17.37.161', u'count': 960},
 {u'_id': u'183.61.51.195', u'count': 944}]

能够看到这个过程与以前的2种方式获得的结果是一致的。

关于可视化处理

关于可视化处理,咱们能够选择一些Javascript的库,例如:

百度的Echarts
d3.js及其衍生的库

对于Python,可视化处理可使用以下的一些库:

matplotlib
pandas

固然还有一些其余的库这里就不一一叙述了。
下面是1个使用百度Echart绘制的界面:

看起来仍是挺漂亮的。

参考文章:

http://api.mongodb.com/python...