参考文献:html
一、http://blog.csdn.net/shifenglov/article/details/40658007前端
二、http://blog.sina.com.cn/s/blog_9b6ffb330101bkv9.htmlpython
三、https://www.cnblogs.com/pingjie/p/4809489.htmllinux
Ganglia:Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量状况等,经过曲线很容易见到每一个节点的工做状态,对合理调整、分配系统资源,提升系统总体性能起到重要做用。ios
Nagios:Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。vim
Ganglia的优点在于实时监控集群中的机器的各项指标,好比cpu,内存,磁盘,温度等数据,汇总成成各类图形化界面,并提供接口可供调用数据。而在出现问题的时候报警提示功能,相对较弱。网络
Nagios的优点在于出现问题之时能够提供强大的报警提示功能,可是在实时监控上,功能较弱,即便使用NRPE本地插件也不能提供强大的机器监控。架构
在集群运维中,有两种方式,第一种,当问题出现的时候可以获得报警提示,运维人员可以迅速出击解决问题,将损失减小到最少。第二种,在问题出现以前,找到可能出现的问题,解决问题,避免问题出现。运维
所以Nagios适合第一种场景,Ganglia适合第二种场景,二者结合能有效的解决各类场景。固然还有其余的监控报警软件,好比Monitorix,NetXMS,cacti,Zabbix等。socket
这里,咱们选择最成熟的Ganglia和Nagios。
1. 集群中已经安装了Ganglia(安装过程能够参考个人上一篇博客http://blog.csdn.net/shifenglov/article/details/40587527)
2. 集群中已经安装了Nagios(安装过程能够参考这篇博客http://www.cnblogs.com/mchina/archive/2013/02/20/2883404.html)
经过Nagios调用Ganglia的接口,获取整个集群的监控指标,若是超过设定的报警阀值,则予以报警提示。
1.复制check_ganglia.py脚本到nagios的执行目录中
若是有源码,则check_ganglia.py在ganglia-3.6.0/contrib/check_ganglia.py中
若是没有源码,则能够下载check_ganglia.py,很容易搜到
#cp check_ganglia.py/usr/local/nagios/libexec/
#!/usr/bin/env python import sys import getopt import socket import xml.parsers.expat class GParser: def __init__(self, host, metric): self.inhost =0 self.inmetric = 0 self.value = None self.host = host self.metric = metric def parse(self, file): p = xml.parsers.expat.ParserCreate() p.StartElementHandler = parser.start_element p.EndElementHandler = parser.end_element p.ParseFile(file) if self.value == None: raise Exception('Host/value not found') return float(self.value) def start_element(self, name, attrs): if name == "HOST": if attrs["NAME"]==self.host: self.inhost=1 elif self.inhost==1 and name == "METRIC" and attrs["NAME"]==self.metric: self.value=attrs["VAL"] def end_element(self, name): if name == "HOST" and self.inhost==1: self.inhost=0 def usage(): print """Usage: check_ganglia \ -h|--host= -m|--metric= -w|--warning= \ -c|--critical= [-s|--server=] [-p|--port=] """ sys.exit(3) if __name__ == "__main__": ############################################################## ganglia_host = '10.20.1.131' ganglia_port = 8649 host = None metric = None warning = None critical = None try: options, args = getopt.getopt(sys.argv[1:], "h:m:w:c:s:p:", ["host=", "metric=", "warning=", "critical=", "server=", "port="], ) except getopt.GetoptError, err: print "check_gmond:", str(err) usage() sys.exit(3) for o, a in options: if o in ("-h", "--host"): host = a elif o in ("-m", "--metric"): metric = a elif o in ("-w", "--warning"): warning = float(a) elif o in ("-c", "--critical"): critical = float(a) elif o in ("-p", "--port"): ganglia_port = int(a) elif o in ("-s", "--server"): ganglia_host = a if critical == None or warning == None or metric == None or host == None: usage() sys.exit(3) try: s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) s.connect((ganglia_host,ganglia_port)) parser = GParser(host, metric) value = parser.parse(s.makefile("r")) s.close() except Exception, err: print "CHECKGANGLIA UNKNOWN: Error while getting value \"%s\"" % (err) sys.exit(3) if critical > warning: if value >= critical: print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value) sys.exit(2) elif value >= warning: print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value) sys.exit(1) else: print "CHECKGANGLIA OK: %s is %.2f" % (metric, value) sys.exit(0) else: if critical >=value: print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value) sys.exit(2) elif warning >=value: print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value) sys.exit(1) else: print "CHECKGANGLIA OK: %s is %.2f" % (metric, value) sys.exit(0)
修改好之后(注意上面文件中ganglia_host及ganglia_port变量修改)
./check_ganglia.py 试一下,没问题
-h 指定主机。在这里须要注意的是,这里填写的是主机名。前提是IP能够被解析。
在/var/lib/ganglia/rrds/my cluster/里面能够看到相应的主机名
-m 检测的是什么参数,在rrds目录下能够看到。命令中不带.rrd
-w warning
-c critical
例如
./check_ganglia.py -h 10.20.1.131 -m load_one -w 4 -c 5
2.追加获取ganglia数据命令
#vim /usr/local/nagios/etc/objects/commands.cfg
追加内容以下:
define command { command_name check_ganglia command_line $USER1$/check_ganglia.py -h $HOSTADDRESS$ -m $ARG1$ -w $ARG2$ -c $ARG3$ }
3.追加监测数据所在主机信息(文件为新追加)
#vim /usr/local/nagios/etc/objects/hosts.cfg
文件内容以下:
define host{ use linux-server host_name test address 10.20.1.131 } define hostgroup{ hostgroup_name ganglia-servers alias ganglia-servers members test }
4.追加监测metrics信息(文件为新追加)
#vim /usr/local/nagios/etc/objects/services.cfg
文件内容以下:
define servicegroup{ servicegroup_name ganglia-metrics alias Ganglia Metrics } define service{ use ganglia-service host_name test hostgroup_name ganglia-servers service_description load_one check_command check_ganglia!load_one!4!5 } define service{ use ganglia-service host_name test hostgroup_name ganglia-servers service_description mem_free check_command check_ganglia!mem_free!50000!40000 }
5.追加模板信息
#vim /usr/local/nagios/etc/objects/templates.cfg
追加内容以下:
define service { use generic-service name ganglia-service hostgroup_name ganglia-servers service_groups ganglia-metrics register 0 }
6.追加配置文件关联
#vim /usr/local/nagios/etc/nagios.cfg
追加内容以下:
#引进host文件 cfg_file=/usr/local/nagios/etc/objects/hosts.cfg #引进监控项的文件 cfg_file=/usr/local/nagios/etc/objects/services.cfg
7. 修改gmetad配置,使其share监控数据
由于默认状况下,ganglia的gmetad服务不会share监控指标给网络上的其余机器,默认只能把数据传输到localhost,因此须要作相应的配置,使其能够share相应数据给其余机器。主要是考虑nagios的主机与ganglia的主机没在同一台机器上。
# vi /etc/ganglia/gmetad.conf
修改内容以下:
trusted_hosts 10.20.1.158 ##添加信任的主机IP
8.重启ganglia及nagios服务
ganglia:
#service ganglia-monitor restart
#service gmetad restart
nagios:
#service nagios restart
9.访问