前一段时间自家养的几只猫常常出问题,因为没有有效的监控预警手段,以致于问题出现或者许久一段时间才会被通知到。凌晨一点这个锅可谁都不想背,为此基于目前的状况搭建了如下这么一套监控预警系统。mysql
GTI监控预警系统,架构流程说明:nginx
这里只对Grafana、Telegraf、Influxdb、Tomcat 作相应的安装说明,Nginx 以及 Docker 请自行查阅资料。git
Grafana只是一个接入数据源的可视化面板,这里为了方便,咱们选择Docker安装。github
mkdir grafana
ID=$(id -u)
docker run -d --user $ID --name=grafana --volume "$PWD/grafana:/var/lib/grafana" -p 3000:3000 grafana/grafana
# 若是生产环境配置,最好提早配置好域名
docker run -d --user $ID --name=grafana --volume "$PWD/data:/var/lib/grafana" -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://monitor.52itstyle.com" grafana/grafana
执行成功之后,执行如下命令:web
docker ps
若是出现grafana运行容器说明安装成功。redis
查看容器相关参数:sql
docker inspect docker.io/grafana/grafana
进入:docker
docker exec -it grafana /bin/sh
Grafana的默认配置文件grafana.ini位于容器中的/etc/grafana,这个文件是映射不出来的。不过能够先建立并运行一个容器,拷贝出来从新建立运行容器。数据库
参数说明(这里截取了部分重点参数):tomcat
##################### Grafana 几个重要的参数(参考一下) #####################
[paths]
# 存放临时文件、session以及sqlite3数据库的目录
;data = /var/lib/grafana
# 存放日志的地方
;logs = /var/log/grafana
# 存放相关插件的地方
;plugins = /var/lib/grafana/plugins
#################################### Server ####################################
[server]
# 默认协议 支持(http, https, socket)
;protocol = http
# 默认端口
;http_port = 3000
# 这里配置访问地址,若是使用了反向代理请配置域名,发送告警通知的时候做为访问地址
root_url = http://grafana.52itstyle.com
#################################### Database ####################################
[database]
# 默认使用的数据库sqlite3,位于/var/lib/grafana目录下面
;path = grafana.db
#################################### Session ####################################
[session]
# session 存储方式,默认是file便可 Either "memory", "file", "redis", "mysql", "postgres", default is "file"
;provider = file
#################################### SMTP / Emailing ##########################
[smtp]
# 邮件服务器配置,自行修改配置
enabled = true
host = smtp.mxhichina.com:465
user = admin@52itstyle.com
# If the password contains # or ; you have to wrap it with trippel quotes. Ex """#password;"""
password = 123456
;cert_file =
;key_file =
;skip_verify = false
from_address = admin@52itstyle.com
# 这里不要设置中文,不然会发送失败
from_name = Grafana
建立并运行容器
docker run -d -p 8083:8083 -p 8086:8086 -e ADMIN_USER="root" -e INFLUXDB_INIT_PWD="root" -e PRE_CREATE_DB="telegraf" --name influxdb tutum/influxdb:latest
各个参数含义:
-d:容器在后台运行
--name:容器名称
-e:指定环境变量,容器中可使用该环境变量
-p:将容器内端口映射到宿主机端口,格式为 宿主机端口:容器内端口;8083是influxdb的web管理工具端口,8086是influxdb的HTTP API端口
执行成功之后,执行如下命令:
docker ps
若是出现influxdb运行容器说明安装成功。
访问地址:http://ip:8083/
docker pull telegraf
把telegraf相关配置拷贝到宿机
docker cp telegraf:/etc/telegraf/telegraf.conf ./telegraf
采集Tomcat数据:
若是想监控多个Tomcat,这里配置多个[[inputs.tomcat]]便可,可是必定要配置不一样的tags标识。
[[inputs.tomcat]]
url = "http://192.168.1.190:8080/manager/status/all?XML=true"
# Tomcat访问帐号密码 必须配置
username = "tomcat"
password = "tomcat"
timeout = "5s"
# 标识Tomcat名称、根据实际项目部署状况而定
[inputs.tomcat.tags]
host = "blog"
[[inputs.tomcat]]
url = "http://192.168.1.190:8081/manager/status/all?XML=true"
# Tomcat访问帐号密码 必须配置
username = "tomcat"
password = "tomcat"
timeout = "5s"
# 标识Tomcat名称、根据实际项目部署状况而定
[inputs.tomcat.tags]
host = "bbs"
采集数据到influxdb:
[[outputs.influxdb]]
# urls = ["udp://localhost:8089"] # UDP endpoint example
urls = ["http://localhost:8086"] # required,这个url改为本身host
## The target database for metrics (telegraf will create it if not exists).
database = "telegraf" # 这个会在influx库建立一个库
把配置文件复制到容器:
docker cp telegraf.conf telegraf:/etc/telegraf/telegraf.conf
重启telegraf服务:
docker restart docker
因为telegraf收集Tomcat相关数据须要配置访问权限,这里咱们选择Tomcat7作配置说明。
修改位于conf下的tomcat-users.xml文件:
<tomcat-users>
<user username="tomcat" password="tomcat" roles="manager-gui,manager-script,manager-jmx,manager-status"/>
</tomcat-users>
重启Tomcat容器,访问如下地址:
http://ip:8080/manager/status/all?XML=true
若是出现以上界面,说明配置成功。
依次启动Tomcat、Influxdb、Telegraf、Grafana完成后,咱们进入Grafana后台管理进行相关配置。
选择 datasources/Add datasource
输入正确的HTTP地址以及数据库帐号密码,点击保存,若是出现绿色提示框,说明配置成功。
选择 dashboard/import
这里有三种方式导入面板:
这里咱们导入事先本身定制保存的Tomcat监控面板,最后点击导入保存。
若是不出意外,将会是下图的样子。
前期作了这么多,咱们的最终目的是为了提早预警通知,在系统即将发生灾难以前做出相应的准备调整。这里咱们以Tomcat的线程数量阈值做为预警通知。
一、Alert名称,能够自定义。
二、执行的频率,这里我选择每60s检测一次。
三、判断标准,默认是avg,这里是下拉框,本身按需求选择。
四、query(A,5m,now),字母A表明选择的metrics中设置的sql,也能够选择其它在metrics中设置的,但这里是单选。5m表明从如今起往以前的五分钟,即5m以前的那个点为时间的起始点,now为时间的结束点,此外这里能够本身手动输入时间。
五、设置的预警临界点,这里手动输入,和6是一样功能,6能够手动移动,两种操做是等同的。
这里咱们选择的是邮件预警通知,可是要提早进行配置,详见一开始grafana.ini中 SMTP / Emailing 相关参数配置。
点击发送测试,提示成功会发送一份告警Demo到指定邮箱:
讲道理,这一套东西仍是挺强大的。特别是对于中小公司来讲,各类成熟的开源组间一整合完美搭建出一套监控系统,时间成本、人力成本、技术成本能够降到最低。
你们安装过程当中,版本可能不尽相同,相关页面展现会不一致,可是不会影响最终功能呈现。
https://docs.influxdata.com/influxdb/
https://docs.influxdata.com/telegraf/
https://blog.52itstyle.com/archives/2014/