构造请求日志分析系统

时间 2020-11-10

标签后端浏览器网络架构 elasticsearch 网站编码 url spa 操作系统栏目浏览器繁體版

原文原文链接

请求日志记录哪些数据

time_local : 请求的时间
remote_addr : 客户端的 IP 地址
request_method : 请求方法
request_schema : 请求协议，常见的 http 和 https
request_host : 请求的域名
request_path : 请求的 path 路径
request_query : 请求的 query 参数
request_size : 请求的大小
referer : 请求来源地址，假设你在 a.com 网站下贴了 b.com 的连接，那么当用户从 a.com 点击访问 b.com 的时候，referer 记录的就是 a.com ，这个是浏览器的行为
user_agent : 客户端浏览器相关信息
status : 请求的响应状态
request_time : 请求的耗时
bytes_sent : 响应的大小

不少时候咱们会使用负载网关去代理转发请求给实际的后端服务，这时候请求日志还会包括如下数据：后端

客户端 IP 地址能够衍生出如下数据：浏览器

asn 相关信息：网络
- asn_asn : 自治系统编号，IP 地址是由自治系统管理的，好比中国联通上海网就管理了全部上海联通的IP
- as_org : 自治系统组织，好比中国移动、中国联通
geo 地址位置信息：架构
- geo_location : 经纬度
- geo_country : 国家
- geo_country_code : 国家编码
- geo_region : 区域（省份）
- geo_city : 城市

user_agent 能够解析出如下信息：elasticsearch

网站

编码

url

spa

操作系统

请求耗时统计：根据 request_time 数据
- p9九、p9五、p90 延迟（前多少百分比请求的耗时，好比 p99 就是前 99% 请求的耗时）
- 长耗时异常监控

结合业务分析：请求的 request_path 地址和 request_query 参数必定是对应具体业务的，例如
- 请求某个相册的地址是 /album/:id ，那么日志中的 request_path 对应的就是对相册进行了一次访问
- 进行站内搜索的地址是 /search?q=<关键词> ，那么统计 request_path 是 /search 的日志条数就能够知道进行了多少次搜索，统计 request_query 中 q 的参数就能够知道搜索关键词的状况

日志系统使用 ELK + kafka 构建是业界比较主流的方案，beats、 logstash 进行日志采集搬运，kafka 存储日志等待消费，elasticsearch 进行数据的聚合分析，grafana 和 kibana 进行图形化展现。