1.是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,时候提供准确的数据追查定位问题,分析业务指标等。ios
2.本质是数据收集并处理(报警,绘图,数据挖掘)的系统架构
3.常见的监控系统相关产品:Zabbix/Nagios/Cacti运维
- 如下说明是对Open-Falcon所支持项架构设计
1.模板支持继承的同事支持覆盖策略项设计
2.数据采集面配置,节省人力成本3d
3.较为强大的数据模型blog
4.tag化描述告警策略each(metric=qps project=falcon module=judge)> 100继承
5.水平扩展,多IDC支持生命周期
1.数据采集面配置:无需预约义,agent自动发现,支持plugin,支持主动push事件
2.容量水平扩展,生产环境每秒20多万次数据收集,告警,存储,绘图
3.告警策略易于管理:支持策略模板,模板集成和覆盖,报警接收人为用户组
4.报警事件自动化处理:触发阈值以后支持callback,便于嵌入自动化逻辑
5.人性化告警设置:支持最大告警次数,告警级别,告警恢复通知,告警暂停,不一样时段不一样阈值,支持维护周期,支持报警合并
6.历史数据高效查询:秒级返回上百个指标一年的历史数据
7.架构设计高可用:整个系统无核心单点,易运维,易部署