使用 Prometheus-Operator 监控 Calico

时间 2020-07-05

标签使用 prometheus operator 监控 calico 繁體版

原文原文链接

原文连接：https://fuckcloudnative.io/posts/monitoring-calico-with-prometheus-operator/node

Calico 中最核心的组件就是 Felix，它负责设置路由表和 ACL 规则等，以便为该主机上的 endpoints 资源正常运行提供所需的网络链接。同时它还负责提供有关网络健康情况的数据（例如，报告配置其主机时发生的错误和问题），这些数据会被写入 etcd，以使其对网络中的其余组件和操做人员可见。git

因而可知，对于咱们的监控来讲，监控 Calico 的核心即是监控 Felix，Felix 就至关于 Calico 的大脑。本文将学习如何使用 Prometheus-Operator 来监控 Calico。github

本文不会涉及到 Calico 和 Prometheus-Operator 的部署细节，若是不知道如何部署，请查阅官方文档和相关博客。json

1. 配置 Calico 以启用指标

默认状况下 Felix 的指标是被禁用的，必须经过命令行管理工具 calicoctl 手动更改 Felix 配置才能开启，须要提早配置好命令行管理工具。后端

本文使用的 Calico 版本是 v3.15.0，其余版本相似。先下载管理工具：api

$ wget https://github.com/projectcalico/calicoctl/releases/download/v3.15.0/calicoctl -O /usr/local/bin/calicoctl
$ chmod +x /usr/local/bin/calicoctl

接下来须要设置 calicoctl 配置文件（默认是 /etc/calico/calicoctl.cfg）。若是你的 Calico 后端存储使用的是 Kubernetes API，那么配置文件内容以下：bash

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "kubernetes"
  kubeconfig: "/root/.kube/config"

若是 Calico 后端存储使用的是 etcd，那么配置文件内容以下：网络

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "etcdv3"
  etcdEndpoints: https://192.168.57.51:2379,https://192.168.57.52:2379,https://192.168.57.53:2379
  etcdKeyFile: /opt/kubernetes/ssl/server-key.pem
  etcdCertFile: /opt/kubernetes/ssl/server.pem
  etcdCACertFile: /opt/kubernetes/ssl/ca.pem

你须要将其中的证书路径换成你的 etcd 证书路径。app

配置好了 calicoctl 以后就能够查看或修改 Calico 的配置了，先来看一下默认的 Felix 配置：curl

$ calicoctl get felixConfiguration default -o yaml

apiVersion: projectcalico.org/v3
kind: FelixConfiguration
metadata:
  creationTimestamp: "2020-06-25T14:37:28Z"
  name: default
  resourceVersion: "269031"
  uid: 52146c95-ff97-40a9-9ba7-7c3b4dd3ba57
spec:
  bpfLogLevel: ""
  ipipEnabled: true
  logSeverityScreen: Info
  reportingInterval: 0s

能够看到默认的配置中没有启用指标，须要手动修改配置，命令以下：

$ calicoctl patch felixConfiguration default  --patch '{"spec":{"prometheusMetricsEnabled": true}}'

Felix 暴露指标的端口是 9091，可经过检查监听端口来验证是否开启指标：

$ ss -tulnp|grep 9091
tcp    LISTEN     0      4096   [::]:9091               [::]:*                   users:(("calico-node",pid=13761,fd=9))

$ curl -s http://localhost:9091/metrics
# HELP felix_active_local_endpoints Number of active endpoints on this host.
# TYPE felix_active_local_endpoints gauge
felix_active_local_endpoints 1
# HELP felix_active_local_policies Number of active policies on this host.
# TYPE felix_active_local_policies gauge
felix_active_local_policies 0
# HELP felix_active_local_selectors Number of active selectors on this host.
# TYPE felix_active_local_selectors gauge
felix_active_local_selectors 0
...

2. Prometheus 采集 Felix 指标

启用了 Felix 的指标后，就能够经过 Prometheus-Operator 来采集指标数据了。Prometheus-Operator 在部署时会建立 Prometheus、PodMonitor、ServiceMonitor、AlertManager 和 PrometheusRule 这 5 个 CRD 资源对象，而后会一直监控并维持这 5 个资源对象的状态。其中 Prometheus 这个资源对象就是对 Prometheus Server 的抽象。而 PodMonitor 和 ServiceMonitor 就是 exporter 的各类抽象，是用来提供专门提供指标数据接口的工具，Prometheus 就是经过 PodMonitor 和 ServiceMonitor 提供的指标数据接口去 pull 数据的。

ServiceMonitor 要求被监控的服务必须有对应的 Service，而 PodMonitor 则不须要，本文选择使用 PodMonitor 来采集 Felix 的指标。

PodMonitor 虽然不须要应用建立相应的 Service，但必须在 Pod 中指定指标的端口和名称，所以须要先修改 DaemonSet calico-node 的配置，指定端口和名称。先用如下命令打开 DaemonSet calico-node 的配置：

$ kubectl -n kube-system edit ds calico-node

而后在线修改，在 spec.template.sepc.containers 中加入如下内容：

ports:
        - containerPort: 9091
          name: http-metrics
          protocol: TCP

建立 Pod 对应的 PodMonitor：

# prometheus-podMonitorCalico.yaml
apiVersion: monitoring.coreos.com/v1
kind: PodMonitor
metadata:
  labels:
    k8s-app: calico-node
  name: felix
  namespace: monitoring
spec:
  podMetricsEndpoints:
  - interval: 15s
    path: /metrics
    port: http-metrics
  namespaceSelector:
    matchNames:
    - kube-system
  selector:
    matchLabels:
      k8s-app: calico-node

$ kubectl apply -f prometheus-podMonitorCalico.yaml

有几个参数须要注意：

PodMonitor 的 name 最终会反应到 Prometheus 的配置中，做为 job_name。
podMetricsEndpoints.port 须要和被监控的 Pod 中的 ports.name 相同，此处为 http-metrics。
namespaceSelector.matchNames 须要和被监控的 Pod 所在的 namespace 相同，此处为 kube-system。
selector.matchLabels 的标签必须和被监控的 Pod 中能惟一标明身份的标签对应。

最终 Prometheus-Operator 会根据 PodMonitor 来修改 Prometheus 的配置文件，以实现对相关的 Pod 进行监控。能够打开 Prometheus 的 UI 查看监控目标：

注意 Labels 中有 pod="calico-node-xxx"，代表监控的是 Pod。

3. 可视化监控指标

采集完指标以后，就能够经过 Grafana 的仪表盘来展现监控指标了。Prometheus-Operator 中部署的 Grafana 没法实时修改仪表盘的配置（必须提早将仪表盘的 json 文件挂载到 Grafana Pod 中），并且也不是最新版（7.0 以上版本），因此我选择删除 Prometheus-Operator 自带的 Grafana，自行部署 helm 仓库中的 Grafana。先进入 kube-prometheus 项目的 manifests 目录，而后将 Grafana 相关的部署清单都移到同一个目录下，再删除 Grafana：

$ cd kube-prometheus/manifests
$ mkdir grafana
$ mv grafana-* grafana/
$ kubectl delete -f grafana/

而后经过 helm 部署最新的 Grafana：

$ helm install grafana stable/grafana -n monitoring

访问 Grafana 的密码保存在 Secret 中，能够经过如下命令查看：

$ kubectl -n monitoring get secret grafana -o yaml

apiVersion: v1
data:
  admin-password: MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw==
  admin-user: YWRtaW4=
  ldap-toml: ""
kind: Secret
metadata:
...

对密码进行解密：

$ echo -n "MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw=="|base64 -d

解密出来的信息就是访问密码。用户名是 admin。经过用户名和密码登陆 Grafana 的 UI：

添加 Prometheus-Operator 的数据源：

Calico 官方没有单独 dashboard json，而是将其放到了 ConfigMap 中，咱们须要从中提取须要的 json，提取出 felix-dashboard.json 的内容，而后将其中的 datasource 值替换为 prometheus。你能够用 sed 替换，也能够用编辑器，大多数编辑器都有全局替换的功能。若是你实在不知道如何提取，可使用我提取好的 json：

修改完了以后，将 json 内容导入到 Grafana：

最后获得的 Felix 仪表盘以下图所示：

若是你对我截图中 Grafana 的主题配色很感兴趣，能够参考这篇文章：Grafana 自定义主题。

Kubernetes 1.18.2 1.17.5 1.16.9 1.15.12离线安装包发布地址http://store.lameleg.com ，欢迎体验。使用了最新的sealos v3.3.6版本。做了主机名解析配置优化，lvscare 挂载/lib/module解决开机启动ipvs加载问题，修复lvscare社区netlink与3.10内核不兼容问题,sealos生成百年证书等特性。更多特性 https://github.com/fanux/sealos 。欢迎扫描下方的二维码加入钉钉群，钉钉群已经集成sealos的机器人实时能够看到sealos的动态。

1. Kubernetes笔记：深入kubernetes---日志和监控( Prometheus、Helm、PrometheusOperator、Grafana)
2. Prometheus监控k8s集合
3. 监控zabbix使用jmx监控tomcat
4. prometheus监控使用
5. 使用Admin监控
6. 使用Actuator监控
7. cacti监控使用
8. elkstack监控使用
9. 使用JConsole监控
10. Calico
更多相关文章...
• TortoiseSVN 使用教程 - SVN 教程
• Redis watch命令——监控事务 - Redis教程
• Composer 安装与使用
• 使用Rxjava计算圆周率