Agentless监控实践中的预警指标采集

时间 2019-11-07

原文原文链接

不少公司已经开发了监控解决方案，解决了指标收集、展现、预警发送等一系列问题。web

本文介绍的监控解决方案由高性能时序数据库InfluxDB、时序分析监控工具Grafana及Agentless自动化工具Ansible构成：Ansible负责不间断抓取服务器硬件指标数据，并将数据存储在数据库InfluxDB中；时序分析监控工具Grafana负责从InfluxDB中读取并展现指标数据，设定阈值，配置预警。数据库

1、开发环境

经过三台本地虚机还原监控对象：一台为监控服务器（monitor），另两台为可接入监控服务的服务器（server1和server2）。json

使用Vagrant管理开发环境，执行vagrant up monitor命令，经过下方Vagrantfile开启并配置监控服务器。若是须要把server1和server2接入监控服务中，能够稍后启动这两台虚机服务器。浏览器

Ansible负责配置监控服务器，包括安装InfluxDB、Grafana及Ansible以及配置监控服务。为了保证代码整洁，结构清晰，每一个工具的安装任务都保存在单独的YML文件夹中。include_tasks可动态地将分组后的任务归入整个流程中。服务器

2、监控服务配置

监控服务配置步骤以下方monitoring-configuration.yml文件所示。首先，建立monitor数据库，生成API，用于完成各项数据库操做。经过Ansible URI与网页服务交互。从监控对象服务器中提取的全部指标均存储在监控数据库中。less

接下来建立Grafana数据源，对接数据库InfluxDB，读取所有指标数据。Grafana提供API，支持经过json格式的内容最大限度地利用配置。除数据源外，还建立了Slack通知渠道和第一个面板。运维

Slack通知渠道指向测试版Slack工做区。用户可建立本身的工做区，并邀请运维人员加入。同时建立传入webhook，取代json URL字段值。工具

初始面板会显示已使用内存百分比。用户能够添加其余指标或建立新面板。可将阈值设定为95%，这样便能直观地查看展现结果；同时配置预警：当最后五个指标值大于等于95%时，则向Slack渠道发送通知。性能

Ansible支持在多个服务器上同时执行任务。此外，Ansible可经过清单文件(/etc/ansible/hosts)了解目标服务器的分组状况。在监控服务配置期间，在库存文件中建立 monitored_servers分组。该组内的全部服务器会被自动监控。测试

服务器接入监控服务后，为防止Ansible核验SSH密钥，需禁用Ansible配置文件(/etc/ansible/ansible.cfg)中的默认功能，以便采集新增服务器的指标。

经过Ansible playbook(playbook-get-metrics.yml)链接全部监控对象，提取全部相关指标。Ansible playbook位于 /etc/ansible/playbooks目录下，经过CRON配置，每分钟执行一次：每分钟采集、存储、显示一次指标数据；如发现问题，则发送预警。

3、采集指标数据

下方playbook-get-metrics.yml文件负责从monitored_servers中提取全部重要指标，并将采集到的数据存储在monitor数据库中。初始面板仅采集内存占用比例。用户可在playbook中添加任务，采集其余指标。

InfluxDB数据存储API用于存储监控数据库中的指标数据。192.168.33.10为监控服务器的IP地址，8086为InfluxDB端口号。数据库中，已使用内存的key为used_mem_pct。用户需为每一个指标配置合适的key。

Ansible默认会采集目标主机信息，用于执行任务。例如，根据主机名称（ansible_hostname）能够判断指标从哪一个服务器上采集的。

此外，经过Ansible采集到的实际使用内存（ansible_memory_mb.real.used）和累计实际使用内存（ansible_memory_mb.real.total）能够计算出内存消耗百分比。掌握这些数据后，能够执行ansible monitor -m setup -uvagrant -k -i hosts命令。弹出SSH密码时，输入vagrant。前述信息均为json格式，可以使用点符号访问值。

4、在监控服务中接入服务器

执行vagrant up monitor命令，启动监控服务器。

而后在浏览器中输入http://192.168.33.10:3000，访问Grafana。用户名和密码均为admin。点击used_mem_pct面板连接，查看折线图中监控服务器的数值。

接入其余服务器，查看折线图中的数值。启动接入其余服务器，查看折线图中的数值。启动server1，执行vagrant up server1命令，继续执行ansible-playbookplaybook-add-server.yml -u vagrant -k -i hosts命令。-u参数用于定义SSH用户，-k参数提示输入密码，-i用于定义监控服务器。

获取新服务器IP地址和SSH证书后，即可实现Ansible与服务器对接。在监控服务器/etc/ansible/hosts文件中插入一行代码后，即可将服务器接入监控服务中。CRON再次执行playbook-get-metrics.yml时，server1便会成为监控对象。这样就能够采集、存储、展现server1的各项指标数据。

5、结论

本文介绍的监控解决方案成本较低且易于实施，具备如下优点：

Ansible不须要在全部监控对象中安装agent；
全部指标数据存储在高性能时序数据库InfluxDB中；
利用Grafana统一展现数据，并支持配置预警。

做者：Gustavo Carmo

编译自：How to Get Metrics for Advance Alerting to Prevent Trouble