据Sysdig发布的容器报告,容器以及如Kubernetes等编排工具的使用增加了51%以上,你们开始将工做负载在集群中进行托管并管理。鉴于集群中短暂的状态,对于端到端的集群有一个十分重要的需求,即可以详细监控节点、容器以及pod。node
IT工程师须要管理应用程序、集群(节点和数据),而且须要减小手动配置service、目标和数据存储的工做量,同时在应用程序每次关闭和返回时进行监控。这就须要一个无缝部署以及管理高可用监控系统(如Prometheus),其中能够与Operator一块儿处理抓取目标的动态配置、服务发现以及用于告警集群中各类目标的配置规则。同时,使用Operator模式编写代码以减小人工干预。git
本文,咱们将关注Prometheus Operator是如何工做的,service monitor在Prometheus Operator中是如何发现目标和获取指标的。web
例如:当pod /service销毁并返回时,Prometheus Operator能够自动建立新的配置文件,无需人工干预。编程
Operator在后台执行如下操做以管理自定义资源:api
一、CRD建立:CRD定义规范和元数据,基于该规范和元数据应建立自定义资源。当建立CRD的请求时,使用Kubernetes内部模式类型(OpenAPI v3模式)验证元数据,而后建立自定义资源定义(CRD)对象安全
二、自定义资源建立根据元数据和CRD规范验证对象,并相应地建立自定义对象建立。app
三、Operator(自定义控制器)开始监控event及其状态变动,并基于CRD管理自定义资源。它能够提供event在自定义资源上执行CRUD操做,所以每当更改自定义资源的状态时,都能被触发相应的event。工具
Prometheus Operator使用Service Monitor CRD执行自动发现和自动配置获取的目标。性能
ServiceMonitoring包括如下组件:编码
接下来咱们来看一个简单的使用案例,以此理解Prometheus Operator时如何监控service的。
Gerrit是一个代码review工具,主要用于DevOps CI流水线,在代码入库前对每一个提交进行审阅。本文假设Gerrit已经在Kubernetes集群中运行,所以再也不赘述Gerrit在Kubernetes做为服务运行的步骤。
若是你尚未Prometheus Operator,可使用helm chart来安装或直接使用Rancher,在Rancher2.2及以上的版本中,Rancher会在新添加的集群中部署一个Prometheus Operator。如下组件将会被默认下载安装:
kube-apiserver
kube-scheduler
kube-controller-manager
etcd
kube-dns/coredns
如下步骤将展现Prometheus Operator如何自动发现运行在Kubernetes集群上的Gerrit服务以及如何从Gerrit中抓取指标。
可使用Prometheus jar插件暴露Gerrit指标,但须要提早将该插件安装在Gerrit实例上运行。
kubectl apply -f gerrit-secret.yaml
使用两个标签标记Gerrit服务,例如:app: gerrit and release: prometheus-operator
kubectl label svc gerrit app=gerrit release=prometheus-operator
在servicemonitoring添加端点的详细信息以发现Gerrit服务指标以及具备匹配标签的的selector,以下所示:
Selector下的标签是用于标识服务的标签:
Selector: matchLabels: app: gerrit release: prometheus-operator
元数据部分下的标签是指用于经过Prometheus CRD识别服务监视器的标签。
Metadata: labels: app: gerrit release: prometheus-operator
Namespaceselector:在Gerrit服务所运行的Kubernetes集群中提供命名空间。Service能够在任何命名空间中运行,但service monitor只能在Prometheus Operator运行的命名空间建立,这样Prometheus CRD就能够识别service monitor对象。
使用如下命令验证Prometheus对象中Service Monitor selector的部分:
kubectl get prometheus Match and apply the label as given in step 4b for the Prometheus object. serviceMonitorSelector: matchLabels: release: prometheus-operator
注意:若是Prometheus-operator使用helm部署,标签release=Prometheus-operator已经应用到Prometheus对象上。咱们依旧须要在service monitor中匹配这个标签,由于Prometheus CRD须要肯定合适的service monitor。
以上servicemonitor建立步骤可使用prometheus-operator helm自定义values.yaml来完成。
标签更新以后,Prometheus自定义对象将会自动调用config-reloader来读取终端并更新Prometheus配置文件。这是Prometheus Operator的一个好处,无需手动介入建立Prometheus配置文件和更新抓取的配置。
一、 打开Prometheus url:http://prometheusip:nodeport
kubectl get svc prometheus以获取nodeport详细信息并用节点的详细信息来替代IP。
二、 访问菜单:Status -> Configuration,来查看使用抓取配置自动加载的Prometheus配置。在scrape_configs部分,能够查看Gerrit service monitor的详细信息,以下所示:
三、 访问菜单 -> Status -> Targets or Service Discovery。若是service monitor已经成功抓取Gerrit的指标,目标应该显示为健康[1/1up]。
Gerrit暴露了各类指标,如JVM运行时间、线程内存、heap size、error等。这些均可以在Grafana仪表板中配置以监控Gerrit的性能和运行情况(以下所示)。
Gerrit指标在scrape url下暴露:
http://gerrit-svcip:nodeport/a/plugins/metrics-reporter-prometheus/metrics
kubectl get svc prometheus
-获取service 节点端口。
将gerrit-svcip、nodeport替换为gerrit服务的gerrit IP / nodeport的详细信息,暴露的指标将以下所示。
指标的值能够在Prometheus -> Graph 中的表达字段进行评估,如:caches_disk_cached_git_tags
在Grafana中配置指标以监控Gerrit的健康情况,选择数据源为Prometheus并在dashboard中配置widget。一些已经配置的关键指标有JVM_threads、Uptime、Http_Plugin errors、内存使用状况、事件等。
Prometheus Operator有助于Prometheus的无缝部署和管理、抓取目标的动态配置、服务发现、可扩展性、以及内置的SRE专业知识,这能够加速集群监控。
2018年年底,Rancher Labs宣布增强对Prometheus的支持,这将为跨多个Kubernetes集群和多个隔离租户环境提供更高的可见性。在Rancher2.2及以上的版本中,每当添加一个新的Kubernetes集群到Rancher中,Rancher都将在集群中部署一个Prometheus operator,而后在集群中建立一个Prometheus部署。此外,还支持如下两个功能:
Rancher对Prometheus的加强支持,可确保为全部Kubernetes集群、全部项目和全部用户进行高效的部署和有效的监测。安全代理确保不在多租户之间重复共享数据,而且对多租户进行隔离。除此以外,Rancher还收集使用Prometheus处理的数据公开端点的任意自定义指标。全部指标都可用于Rancher内部的告警和决策,经过通知用户的Slack及PagerDuty进行简单操做,经过启动工做负载的横向扩展最终增长负载进行复杂操做。Rancher如今还拥有彻底安全隔离和RBAC的集群级和项目级的指标和仪表盘。