最近容器组在开发云平台的监控、报警功能。html
大体的实现策略是:网络
一、云平台页面上配置告警规则测试
二、Prometheus完成监控数据的聚合spa
三、当Prometheus聚合后的监控数据知足告警规则,触发钉钉告警设计
一、告警规则配置,通常状况下,业务服务的服务类型为deployment。告警规则:Pod内存使用率大于50%htm
二、步骤1中建立告警规则时,会同步在Prometheus上建立一个相同规则的Alert任务blog
三、复制Alert任务的聚合表达式,能够在Graph中实时查看到内存的占用状况教程
四、收到告警通知内存
那么,是什么让内存的占用忽然增高到90%以上,从而能触发告警条件的呢?(告警条件:Pod内存使用率大于50%)开发
Chaos Mesh登场了。
Chaos Mesh做为一个云原生的混沌工程平台,提供在 Kubernetes 平台上进行混沌测试的能力。
Chaos Mesh包括针对Kubernetes上复杂系统的故障注入方法,并涵盖了Pod,网络,文件系统甚至内核中的故障。
Chaos Mesh功能很强大,这里只用到给Pod注入内存占用。
步骤以下:
推荐:
https://www.kubernetes.org.cn/7443.html( 混沌网格(Chaos Mesh)的设计和工做原理 )
https://cloud.tencent.com/developer/article/1579651(kubernetes系列教程(二十)prometheus提供完备监控系统)