本系列着重介绍Prometheus
以及如何用它和其周边的生态来搭建一套属于本身的实时监控告警平台。java
本系列受众对象为初次接触Prometheus
的用户,大神勿喷,偏重于操做和实战,可是重要的概念也会精炼出说起下。系列主要分为如下几块linux
Prometheus
各个概念介绍和搭建,如何抓取数据(一步步教你用Prometheus搭建实时监控系统系列(一)——上帝之火,普罗米修斯的崛起)Prometheus
,推送和拉取分别用于什么样的场景(本次分享内容)Prometheus
数据的结构以及查询语言PromQL
的使用Prometheus
集成,如何启用服务发现,若是自定义业务指标Prometheus
如何和Grafana
可视化套件进行集成和设置告警拉取模式:nginx
Prometheus
获取数据的方式只有拉取(PULL),即Prometheus
会以固定频率去请求每一个target
所提供的http url
来获取数据。这就须要每一个服务端点提供http
的接口来获取实时的数据。git
推送模式:github
Prometheus
也变相的实现了推送数据的方式。docker
为何说是变相呢。由于Prometheus
获取数据的方式一直是拉取方式,官方并无提供推送数据的功能。可是官方为了兼容推送这种方式,增长了一个PushGateway
组件。segmentfault
这个组件至关于一个代理服务,独立部署。它没有数据抓取功能,只能被动的等待数据推送。应用把数据推送到PushGateway
后,Prometheus
再从PushGateway
抓取。浏览器
即使客户端推了全量的数据到了PushGateway
,Prometheus
也不是每次拉取这个期间用户推上来的全部数据。服务器
事实上Prometheus
只拉取用户最后一次push上来的数据。微信
在这个系列一的时候,曾经提到过Prometheus
其实并不须要每个精确的数据,长期保存的是中等或者低精度的数据。它每次只抓取一个数据,在固定的频率下。也能造成某种数据的趋势。
若是客户端一直没有推送新的指标到PushGateway
,那么Prometheus
将始终拉取最后推送上的数据,直到指标消失,默认是5分钟。
Pushgateway
本意是不会存储指标的,可是为了让pushgateway
意外重启一类的故障以后可以从新读取到原来的指标,添加了一个将指标暂时存储到本地的功能,参数--persistence.interval=5m
就是默认保持5分钟,5分钟后,本地存储的指标会删除。能够经过调节这个值来修正发现异常的时间。
经过单个Pushgateway
监控多个实例时,Pushgateway
有可能成为单点故障和潜在瓶颈
若是要用Pushgateway
的话,建议多点部署。而后前面经过nginx
进行反向代理多个节点,进行负载均衡。
Prometheus
采用定时拉取模式,可能因为子网络或者防火墙的缘由,不能直接拉取各个Target
的指标数据,此时能够采用各个Target
往PushGateway
上推送数据,而后Prometheus
去PushGateway
上定时拉取PushGateway
来统一收集,而后Prometheus
来统一拉取Pushgateway
分docker
安装和普通安装两种,这里才用普通安装
先上prometheus
的github release主页
https://github.com/prometheus...
按照须要下载对应的包,我这里是须要部署在linux服务器上,因此下载这个
下载好,解压。运行:
nohup ./pushgateway &
启动起来后,默认端口为9091
在浏览器上根据ip+port能够访问到以下页面,就算启动成功了:
除此以外还要在Prometheus
的配置文件里设置Target
:
- job_name: 'pushgateway' scrape_interval: 10s # 每过10秒拉取一次 honor_labels: true static_configs: - targets: ['localhost:9091'] labels: instance: pushgateway
设置完毕后重启Prometheus
,而后会在Target
选项卡里看到状态为UP
的Pushgateway
。
设置阶段就完成了。
我这里用postman
软件进行推送测试,推送url
的格式为:/metrics/job/<JOBNAME>{/<LABEL_NAME>/<LABEL_VALUE>}
这个测试用例为意思是,推送一个指标aaa,标签为bbb=BBB,ccc=CCC
,值为111.1到一个组上,这个组为job=pushgateway,instance=demo
。
其实你能够简单的理解为这个指标aaa带有4个标签:job,instance,bbb,ccc。只是job和instance是属于组上的标签。
同一个组里的相同的指标,Prometheus
每次只取最新的,不一样组内能够有相同的指标。
关于数据结构和标签结构系列的下一篇文章会详细介绍。
总之,你提交这个POST
请求后,能够在http://ip:9091
上看到以下数据:
能够看到,aaa这个标签已经成功的被提交到Pushgateway
里了。
接下来,咱们在Prometheus
里查询这个指标:
能够看到,Prometheus
也成功的拉取到了这个指标。
虽然咱们在java服务端也能利用httpclient
等工具进行提交,可是须要自行组装不少请求体。Prometheus
官方提供了一个SDK。
首先在Maven
中引入依赖包:
<dependency> <groupId>io.prometheus</groupId> <artifactId>simpleclient_pushgateway</artifactId> <version>0.9.0</version> </dependency>
对Gauge
,Timer
,Counter
,Summary
四种常见的指标进行推送示例:
public void run(String... args) throws Exception { Gauge guage = Gauge.build("my_custom_metric", "This is my custom metric.") .labelNames("aaa","bbb").register(); Gauge.Child child = guage.labels("AAA","BBB"); child.set(334.5); Gauge timerGauge = Gauge.build("my_timer_metric","this is my timer metric.").register(); Gauge.Timer timer = timerGauge.startTimer(); Thread.sleep(3000L); Counter counter = Counter.build("my_count_metric","this is my count metric.").register(); counter.inc(); counter.inc(); Summary summary = Summary.build("my_summary_metric","this is my summary metric.").register(); summary.observe(45.6); summary.observe(54.5); String url = "xxx.xxx.xxx.xxx:9091"; PushGateway pg = new PushGateway(url); Map<String, String> groupingKey = new HashMap<>(); groupingKey.put("instance", "my_instance"); pg.pushAdd(CollectorRegistry.defaultRegistry, "my_job", groupingKey); }
这段代码演示了4个指标批量提交的场景。经过注册到CollectorRegistry.defaultRegistry
里,最后一块儿pushAdd
。
咱们能够在Pushgateway
里查询到提交的指标:
一样在Prometheus
里也能查询到这4个指标,具体图示就不贴了。能够本身尝试下。
这个系列旨在利用实战操做教你一步步搭建本身系统和业务监控大盘。后面会继续更新。下一个章节将分析:Prometheus
中的数据格式分析以及PromQL
的使用。
若是你喜欢做者的文章,欢迎微信公众号关注 「元人部落」,一个只作原创的技术科技分享号
关注后回复“资料”获取50G的技术资料