原文连接:https://fuckcloudnative.io/posts/monitoring-calico-with-prometheus-operator/node
Calico
中最核心的组件就是 Felix
,它负责设置路由表和 ACL 规则等,以便为该主机上的 endpoints 资源正常运行提供所需的网络链接。同时它还负责提供有关网络健康情况的数据(例如,报告配置其主机时发生的错误和问题),这些数据会被写入 etcd,以使其对网络中的其余组件和操做人员可见。git
因而可知,对于咱们的监控来讲,监控 Calico 的核心即是监控 Felix
,Felix
就至关于 Calico 的大脑。本文将学习如何使用 Prometheus-Operator
来监控 Calico。github
本文不会涉及到
Calico
和Prometheus-Operator
的部署细节,若是不知道如何部署,请查阅官方文档和相关博客。json
默认状况下 Felix 的指标是被禁用的,必须经过命令行管理工具 calicoctl
手动更改 Felix 配置才能开启,须要提早配置好命令行管理工具。后端
本文使用的 Calico 版本是 v3.15.0
,其余版本相似。先下载管理工具:api
$ wget https://github.com/projectcalico/calicoctl/releases/download/v3.15.0/calicoctl -O /usr/local/bin/calicoctl $ chmod +x /usr/local/bin/calicoctl
接下来须要设置 calicoctl 配置文件(默认是 /etc/calico/calicoctl.cfg
)。若是你的 Calico 后端存储使用的是 Kubernetes API
,那么配置文件内容以下:bash
apiVersion: projectcalico.org/v3 kind: CalicoAPIConfig metadata: spec: datastoreType: "kubernetes" kubeconfig: "/root/.kube/config"
若是 Calico 后端存储使用的是 etcd
,那么配置文件内容以下:网络
apiVersion: projectcalico.org/v3 kind: CalicoAPIConfig metadata: spec: datastoreType: "etcdv3" etcdEndpoints: https://192.168.57.51:2379,https://192.168.57.52:2379,https://192.168.57.53:2379 etcdKeyFile: /opt/kubernetes/ssl/server-key.pem etcdCertFile: /opt/kubernetes/ssl/server.pem etcdCACertFile: /opt/kubernetes/ssl/ca.pem
你须要将其中的证书路径换成你的 etcd 证书路径。app
配置好了 calicoctl
以后就能够查看或修改 Calico 的配置了,先来看一下默认的 Felix
配置:curl
$ calicoctl get felixConfiguration default -o yaml apiVersion: projectcalico.org/v3 kind: FelixConfiguration metadata: creationTimestamp: "2020-06-25T14:37:28Z" name: default resourceVersion: "269031" uid: 52146c95-ff97-40a9-9ba7-7c3b4dd3ba57 spec: bpfLogLevel: "" ipipEnabled: true logSeverityScreen: Info reportingInterval: 0s
能够看到默认的配置中没有启用指标,须要手动修改配置,命令以下:
$ calicoctl patch felixConfiguration default --patch '{"spec":{"prometheusMetricsEnabled": true}}'
Felix
暴露指标的端口是 9091
,可经过检查监听端口来验证是否开启指标:
$ ss -tulnp|grep 9091 tcp LISTEN 0 4096 [::]:9091 [::]:* users:(("calico-node",pid=13761,fd=9)) $ curl -s http://localhost:9091/metrics # HELP felix_active_local_endpoints Number of active endpoints on this host. # TYPE felix_active_local_endpoints gauge felix_active_local_endpoints 1 # HELP felix_active_local_policies Number of active policies on this host. # TYPE felix_active_local_policies gauge felix_active_local_policies 0 # HELP felix_active_local_selectors Number of active selectors on this host. # TYPE felix_active_local_selectors gauge felix_active_local_selectors 0 ...
启用了 Felix
的指标后,就能够经过 Prometheus-Operator
来采集指标数据了。Prometheus-Operator 在部署时会建立 Prometheus
、PodMonitor
、ServiceMonitor
、AlertManager
和 PrometheusRule
这 5 个 CRD 资源对象,而后会一直监控并维持这 5 个资源对象的状态。其中 Prometheus
这个资源对象就是对 Prometheus Server 的抽象。而 PodMonitor
和 ServiceMonitor
就是 exporter
的各类抽象,是用来提供专门提供指标数据接口的工具,Prometheus 就是经过 PodMonitor
和 ServiceMonitor
提供的指标数据接口去 pull
数据的。
ServiceMonitor
要求被监控的服务必须有对应的 Service
,而 PodMonitor
则不须要,本文选择使用 PodMonitor
来采集 Felix 的指标。
PodMonitor
虽然不须要应用建立相应的 Service
,但必须在 Pod 中指定指标的端口和名称,所以须要先修改 DaemonSet calico-node
的配置,指定端口和名称。先用如下命令打开 DaemonSet calico-node
的配置:
$ kubectl -n kube-system edit ds calico-node
而后在线修改,在 spec.template.sepc.containers
中加入如下内容:
ports: - containerPort: 9091 name: http-metrics protocol: TCP
建立 Pod 对应的 PodMonitor
:
# prometheus-podMonitorCalico.yaml apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: labels: k8s-app: calico-node name: felix namespace: monitoring spec: podMetricsEndpoints: - interval: 15s path: /metrics port: http-metrics namespaceSelector: matchNames: - kube-system selector: matchLabels: k8s-app: calico-node
$ kubectl apply -f prometheus-podMonitorCalico.yaml
有几个参数须要注意:
PodMonitor 的 name 最终会反应到 Prometheus 的配置中,做为 job_name
。
podMetricsEndpoints.port
须要和被监控的 Pod 中的 ports.name
相同,此处为 http-metrics
。
namespaceSelector.matchNames
须要和被监控的 Pod 所在的 namespace 相同,此处为 kube-system
。
selector.matchLabels
的标签必须和被监控的 Pod 中能惟一标明身份的标签对应。
最终 Prometheus-Operator 会根据 PodMonitor
来修改 Prometheus 的配置文件,以实现对相关的 Pod 进行监控。能够打开 Prometheus 的 UI 查看监控目标:
注意 Labels 中有 pod="calico-node-xxx"
,代表监控的是 Pod。
采集完指标以后,就能够经过 Grafana
的仪表盘来展现监控指标了。Prometheus-Operator
中部署的 Grafana 没法实时修改仪表盘的配置(必须提早将仪表盘的 json 文件挂载到 Grafana Pod 中),并且也不是最新版(7.0
以上版本),因此我选择删除 Prometheus-Operator 自带的 Grafana,自行部署 helm 仓库中的 Grafana。先进入 kube-prometheus
项目的 manifests
目录,而后将 Grafana 相关的部署清单都移到同一个目录下,再删除 Grafana:
$ cd kube-prometheus/manifests $ mkdir grafana $ mv grafana-* grafana/ $ kubectl delete -f grafana/
而后经过 helm
部署最新的 Grafana:
$ helm install grafana stable/grafana -n monitoring
访问 Grafana 的密码保存在 Secret
中,能够经过如下命令查看:
$ kubectl -n monitoring get secret grafana -o yaml apiVersion: v1 data: admin-password: MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw== admin-user: YWRtaW4= ldap-toml: "" kind: Secret metadata: ...
对密码进行解密:
$ echo -n "MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw=="|base64 -d
解密出来的信息就是访问密码。用户名是 admin
。经过用户名和密码登陆 Grafana 的 UI:
添加 Prometheus-Operator 的数据源:
Calico 官方没有单独 dashboard json,而是将其放到了 ConfigMap 中,咱们须要从中提取须要的 json,提取出 felix-dashboard.json
的内容,而后将其中的 datasource
值替换为 prometheus
。你能够用 sed
替换,也能够用编辑器,大多数编辑器都有全局替换的功能。若是你实在不知道如何提取,可使用我提取好的 json:
修改完了以后,将 json 内容导入到 Grafana:
最后获得的 Felix
仪表盘以下图所示:
若是你对我截图中 Grafana 的主题配色很感兴趣,能够参考这篇文章:Grafana 自定义主题。
Kubernetes 1.18.2 1.17.5 1.16.9 1.15.12离线安装包发布地址http://store.lameleg.com ,欢迎体验。 使用了最新的sealos v3.3.6版本。 做了主机名解析配置优化,lvscare 挂载/lib/module解决开机启动ipvs加载问题, 修复lvscare社区netlink与3.10内核不兼容问题,sealos生成百年证书等特性。更多特性 https://github.com/fanux/sealos 。欢迎扫描下方的二维码加入钉钉群 ,钉钉群已经集成sealos的机器人实时能够看到sealos的动态。