一、监控指标服务器
1)qps,pv性能
2)响应时间。大多数状况下,能够用一段时间内全部调用的平均耗时来反映请求的响应时间。但它只表明了请求的平均快慢状况,有时候咱们更关心慢请求的数量。P99 = 500ms,意思是 99% 的请求响应时间在 500ms 之内代理
3)错误率。错误率的监控一般用一段时间内调用失败的次数占调用总次数的比率来衡量,好比对于接口的错误率通常用接口返回错误码为 503 的比率来表示接口
4)cpu利用率,io读写量,内存,磁盘队列
二、监控系统原理内存
监控系统主要包括四个环节:数据采集、数据传输、数据处理和数据展现消息队列
1)数据采集:服务主动上报和代理收集io
采样对系统自己的性能也会有必定的影响,尤为是采集后的数据须要写到本地磁盘的时候,太高的采样率会致使系统写入磁盘的 I/O 太高,进而会影响到正常的服务调用。最好是能够动态控制采样率,在系统比较空闲的时候加大采样率,追求监控的实时性与精确度;在系统负载比较高的时候减少采样率,追求监控的可用性与系统的稳定性。监控
2)数据传输:原理
UDP 传输,这种处理方式是数据处理单元提供服务器的请求地址,数据采集后经过 UDP 协议与服务器创建链接,而后把数据发送过去
Kafka 传输,这种处理方式是数据采集后发送到指定的 Topic,而后数据处理单元再订阅对应的 Topic,就能够从 Kafka 消息队列中读取到对应的数据
3)数据处理:
放入es
4)数据展现
数据展现是把处理后的数据以 Dashboard 的方式展现给用户。数据展现有多种方式,好比曲线图、饼状图、格子图展现等