002-open-falcon插件

时间 2019-12-17

标签 open falcon 插件繁體版

原文原文链接

open-falcon插件

逻辑图 redis

相关插件名称

transfer算法

transfer是数据转发服务。它接收agent上报的数据，而后按照哈希规则进行数据分片、并将分片后的数据分别push给graph&judge等组件。数据库

检查服务状态是否正常
curl -s "127.0.0.1:6060/health"
启动服务
./open-falcon start transfer
中止服务
./open-falcon stop transfer
查看服务
./open-falcon monitor transfer

后续插件的相关查看命令你们触类旁通api

graph缓存

graph是存储绘图数据的组件。graph组件接收transfer组件推送上来的监控数据，同时处理api组件的查询请求、返回绘图数据。服务器

apicurl

api组件，提供统一的restAPI操做接口。好比：api组件接收查询请求，根据一致性哈希算法去相应的graph实例查询不一样metric的数据，而后汇总拿到的数据，最后统一返回给用户url

HBS.net

心跳服务器，公司全部agent都会连到HBS，每分钟发一次心跳请求。 Portal的数据库中有一个host表，维护了公司全部机器的信息，好比hostname、ip等等。这个表中的数据一般是从公司CMDB中同步过来的。可是有些规模小一些的公司是没有CMDB的，那此时就须要手工往host表中录入数据，这很麻烦。因而咱们赋予了HBS第一个功能：agent发送心跳信息给HBS的时候，会把hostname、ip、agent version、plugin version等信息告诉HBS，HBS负责更新host表。 falcon-agent有一个很大的特色，就是自发现，不用配置它应该采集什么数据，就自动去采集了。好比cpu、内存、磁盘、网卡流量等等都会自动采集。咱们除了要采集这些基础信息以外，还须要作端口存活监控和进程数监控。那咱们是否也要自动采集监听的端口和各个进程数目呢？咱们没有这么作，由于这个数据量比较大，汇报上去以后用户大部分都是不关心的，太浪费。因而咱们换了一个方式，只采集用户配置的。好比用户配置了对某个机器80端口的监控，咱们才会去采集这个机器80端口的存活性。那agent如何知道本身应该采集哪些端口和进程呢？向HBS要，HBS去读取Portal的数据库，返回给agent。以后咱们会介绍一个用于判断报警的组件：Judge，Judge须要获取全部的报警策略，让Judge去读取Portal的DB么？不太好。由于Judge的实例数目比较多，若是公司有几十万机器，Judge实例数目可能会是几百个，几百个Judge实例去访问Portal数据库，也是一个比较大的压力。既然HBS不管如何都要访问Portal的数据库了，那就让HBS去获取全部的报警策略缓存在内存里，而后Judge去向HBS请求。这样一来，对Portal DB的压力就会大大减少。插件

judge

Judge用于告警判断，agent将数据push给Transfer，Transfer不但会转发给Graph组件来绘图，还会转发给Judge用于判断是否触发告警。由于监控系统数据量比较大，一台机器显然是搞不定的，因此必需要有个数据分片方案。Transfer经过一致性哈希来分片，每一个Judge就只须要处理一小部分数据就能够了。因此判断告警的功能不能放在直接的数据接收端：Transfer，而应该放到Transfer后面的组件里。

Alarm

alarm模块是处理报警event的，judge产生的报警event写入redis，alarm从redis读取处理，并进行不一样渠道的发送。报警event的处理逻辑并不是仅仅是发邮件、发短信这么简单。为了可以自动化对event作处理，alarm须要支持在产生event的时候回调用户提供的接口；有的时候报警短信、邮件太多，对于优先级比较低的报警，但愿作报警合并，这些逻辑都是在alarm中作的。咱们在配置报警策略的时候配置了报警级别，好比P0/P1/P2等等，每一个及别的报警都会对应不一样的redis队列 alarm去读取这个数据的时候咱们但愿先读取P0的数据，再读取P1的数据，最后读取P5的数据，由于咱们但愿先处理优先级高的。因而：用了redis的brpop指令。已经发送的告警信息，alarm会写入MySQL中保存，这样用户就能够在dashboard中查阅历史报警，同时针对同一个策略发出的多条报警，在MySQL存储的时候，会聚类；历史报警保存的周期，是可配置的，默认为7天。

Nodata

nodata用于检测监控数据的上报异常。nodata和实时报警judge模块协同工做，过程为: 配置了nodata的采集项超时未上报数据，nodata生成一条默认的模拟数据；用户配置相应的报警策略，收到mock数据就产生报警。采集项上报异常检测，做为judge模块的一个必要补充，可以使judge的实时报警功能更加可靠、完善。

Aggregator

集群聚合模块。聚合某集群下的全部机器的某个指标的值，提供一种集群视角的监控体验。

参考文档： https://blog.csdn.net/qq_27384769/article/details/79569813 https://blog.csdn.net/jorson2000a/article/details/81359804