默认监控key与中文释义

告警键值   -----------------------------------------------------中文释义--------------------------------------------------------------------------------------故障持续时间node

AlertmanagerConfigInconsistent AlertManager群集xxxx的实例配置不一样步。 5m
AlertmanagerDown AlertManager已从普罗米修斯目标发现中消失。 15m
AlertmanagerFailedReload 从新加载AlertManager的配置失败 10m
AlertmanagerMembersInconsistent AlertManager未找到群集的全部其余成员。 5m
CPUThrottlingHigh cpu节流高,使用低CPU限制,就算高峰期,整个集群仍是有不少空闲资源 15m
etcdGRPCRequestsSlow ETCD GRPC请求缓慢 10m
etcdHighCommitDurations ETCD提交时间过长 10m
etcdHighFsyncDurations ETCD同步时间过长 10m
etcdHighNumberOfFailedGRPCRequests ETCD失败的GRPC请求数太多 10m
etcdHighNumberOfFailedHTTPRequests ETCD失败的HTTP请求数太多 10m
etcdHighNumberOfFailedProposals ETCD失败的计划数量不少 15m
etcdHighNumberOfLeaderChanges ETCD Leader 变动次数多 15m
etcdHTTPRequestsSlow ETCD HTTP请求速度慢 10m
etcdInsufficientMembers ETCD成员不足 3m
etcdMemberCommunicationSlow ETCD成员通讯缓慢 10m
etcdNoLeader ETCD没有Leader 1m
KubeAPIDown KubeAPI 宕掉或不存在 15m
KubeAPIErrorsHigh API服务器正在为请求的 值 返回错误。 10m
KubeAPILatencyHigh API服务器每秒钟延迟超过99% 10m
KubeClientCertificateExpiration 用于向APIServer进行身份验证的客户端证书将在7天内过时。 5m
KubeClientErrors 链接客户端API 错误 15m
KubeControllerManagerDown KubeControllerManager 宕掉 15m
KubeCPUOvercommit 该集群cpu超出资源限额 5m
KubeCronJobRunning CronJob 运行超过1小时 1h
KubeDaemonSetMisScheduled DaemonSet调度错误,没有跑到正确的机器上 10m
KubeDaemonSetNotScheduled DaemonSet 位设置运行在哪,也就是分配错误 10m
KubeDaemonSetRolloutStuck DaemonSet 启动或滚动时卡住? 15m
KubeDeploymentGenerationMismatch Deployment 生成部署不匹配,部署失败 15m
KubeDeploymentReplicasMismatch Deployment 与预期的副本数不匹配的时间已超过一小时。 1h
KubeJobCompletion Job 超过一小时才完成 1h
KubeJobFailed Job 失败 1h
KubeletDown Kubelet宕掉了 15m
KubeletTooManyPods pods数量太多,超过极限的110% 15m
KubeMemOvercommit 集群内存资源使用过分,没法再容忍故障节点漂移 5m
KubeNodeNotReady node故障超过1小时 1h
KubePersistentVolumeErrors 持久卷Volume 异常 5m
KubePersistentVolumeFullInFourDays 根据最近的采样,某Volume 讲在4天内填满 5m
KubePersistentVolumeUsageCritical 该持久卷使用权限不足,只能在xxx空间内使用 1m
KubePodCrashLooping 该pod CrashLoopBackOff 状态重启超过5分钟 1h
KubePodNotReady pod处于未就绪状态超过一小时。 1h
KubeQuotaExceeded Kube 使用超出配额 15m
KubeSchedulerDown KubeScheduler 宕掉 15m
KubeStatefulSetGenerationMismatch StatefulSet 错误,但还没有回滚 15m
KubeStatefulSetReplicasMismatch statefulset 副本集不匹配,超过15分钟 15m
KubeStatefulSetUpdateNotRolledOut statefulset 更新还没有结束(更新超时) 15m
KubeStateMetricsDown KubeStateMetrics 宕掉 15m
KubeVersionMismatch kube版本不匹配 1h
NodeDiskRunningFull node磁盘空间超过85% 10m
NodeExporterDown NodeExporter 宕机 15m
PrometheusConfigReloadFailed Prometheus重载配置失败 10m
PrometheusDown Prometheus 宕机 15m
PrometheusErrorSendingAlerts 从Prometheus 向AlertManager 发送警报时出错 10m
PrometheusNotConnectedToAlertmanagers Prometheus 不能链接AlertManager 10m
PrometheusNotificationQueueRunningFull Prometheus的警报通知队列已满 10m
PrometheusNotIngestingSamples 信息存储opentsdb 异常 10m
PrometheusOperatorDown PrometheusOperator 宕机 15m
PrometheusOperatorNodeLookupErrors PrometheusOperator 节点错误 10m
PrometheusOperatorReconcileErrors PrometheusOperator 有错误日志 10m
PrometheusTargetScrapesDuplicate 因为时间戳重复但值不一样,拒绝了不少采集数据 10m
PrometheusTSDBCompactionsFailing 压缩实例块出现问题超过4个小时 12h
PrometheusTSDBReloadsFailing 磁盘从新加载数据块时出现问题超过4个小时 12h
PrometheusTSDBWALCorruptions TSDB 的wal 预写日志已损坏 4h
TargetDown 总体labels.job量降低了10%? 10m
相关文章
相关标签/搜索