Ganglia与Nagios的整合

时间 2019-11-12

标签 ganglia nagios 整合繁體版

原文原文链接

参考文献：html

一、http://blog.csdn.net/shifenglov/article/details/40658007前端

二、http://blog.sina.com.cn/s/blog_9b6ffb330101bkv9.htmlpython

三、https://www.cnblogs.com/pingjie/p/4809489.htmllinux

基本介绍

Ganglia：Ganglia是UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量状况等，经过曲线很容易见到每一个节点的工做状态，对合理调整、分配系统资源，提升系统总体性能起到重要做用。ios

Nagios：Nagios是一款开源的电脑系统和网络监视工具，能有效监控Windows、Linux和Unix的主机状态，交换机路由器等网络设置，打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员，在状态恢复后发出正常的邮件或短信通知。vim

架构

Ganglia的优点在于实时监控集群中的机器的各项指标，好比cpu，内存，磁盘，温度等数据，汇总成成各类图形化界面，并提供接口可供调用数据。而在出现问题的时候报警提示功能，相对较弱。网络

Nagios的优点在于出现问题之时能够提供强大的报警提示功能，可是在实时监控上，功能较弱，即便使用NRPE本地插件也不能提供强大的机器监控。架构

在集群运维中，有两种方式，第一种，当问题出现的时候可以获得报警提示，运维人员可以迅速出击解决问题，将损失减小到最少。第二种，在问题出现以前，找到可能出现的问题，解决问题，避免问题出现。运维

所以Nagios适合第一种场景，Ganglia适合第二种场景，二者结合能有效的解决各类场景。固然还有其余的监控报警软件，好比Monitorix，NetXMS，cacti，Zabbix等。socket

这里，咱们选择最成熟的Ganglia和Nagios。

环境介绍

1. 集群中已经安装了Ganglia（安装过程能够参考个人上一篇博客http://blog.csdn.net/shifenglov/article/details/40587527）

2. 集群中已经安装了Nagios（安装过程能够参考这篇博客http://www.cnblogs.com/mchina/archive/2013/02/20/2883404.html）

安装思路

经过Nagios调用Ganglia的接口，获取整个集群的监控指标，若是超过设定的报警阀值，则予以报警提示。

安装过程

1.复制check_ganglia.py脚本到nagios的执行目录中

若是有源码，则check_ganglia.py在ganglia-3.6.0/contrib/check_ganglia.py中

若是没有源码，则能够下载check_ganglia.py，很容易搜到

#cp check_ganglia.py/usr/local/nagios/libexec/

#!/usr/bin/env python
 
import sys
import getopt
import socket
import xml.parsers.expat
 
class GParser:
  def __init__(self, host, metric):
    self.inhost =0
    self.inmetric = 0
    self.value = None
    self.host = host
    self.metric = metric
 
  def parse(self, file):
    p = xml.parsers.expat.ParserCreate()
    p.StartElementHandler = parser.start_element
    p.EndElementHandler = parser.end_element
    p.ParseFile(file)
    if self.value == None:
      raise Exception('Host/value not found')
    return float(self.value)
 
  def start_element(self, name, attrs):
    if name == "HOST":
      if attrs["NAME"]==self.host:
        self.inhost=1
    elif self.inhost==1 and name == "METRIC" and attrs["NAME"]==self.metric:
      self.value=attrs["VAL"]
 
  def end_element(self, name):
    if name == "HOST" and self.inhost==1:
      self.inhost=0
 
def usage():
  print """Usage: check_ganglia \
-h|--host= -m|--metric= -w|--warning= \
-c|--critical= [-s|--server=] [-p|--port=] """
  sys.exit(3)
 
if __name__ == "__main__":
##############################################################
  ganglia_host = '10.20.1.131'
  ganglia_port = 8649
  host = None
  metric = None
  warning = None
  critical = None
 
  try:
    options, args = getopt.getopt(sys.argv[1:],
      "h:m:w:c:s:p:",
      ["host=", "metric=", "warning=", "critical=", "server=", "port="],
      )
  except getopt.GetoptError, err:
    print "check_gmond:", str(err)
    usage()
    sys.exit(3)
 
  for o, a in options:
    if o in ("-h", "--host"):
       host = a
    elif o in ("-m", "--metric"):
       metric = a
    elif o in ("-w", "--warning"):
       warning = float(a)
    elif o in ("-c", "--critical"):
       critical = float(a)
    elif o in ("-p", "--port"):
       ganglia_port = int(a)
    elif o in ("-s", "--server"):
       ganglia_host = a
 
  if critical == None or warning == None or metric == None or host == None:
    usage()
    sys.exit(3)
        
  try:
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    s.connect((ganglia_host,ganglia_port))
    parser = GParser(host, metric)
    value = parser.parse(s.makefile("r"))
    s.close()
  except Exception, err:
    print "CHECKGANGLIA UNKNOWN: Error while getting value \"%s\"" % (err)
    sys.exit(3)
 
  if critical > warning:
    if value >= critical:
      print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)
      sys.exit(2)
    elif value >= warning:
      print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)
      sys.exit(1)
    else:
      print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)
      sys.exit(0)
  else:
    if critical >=value:
      print "CHECKGANGLIA CRITICAL: %s is %.2f" % (metric, value)
      sys.exit(2)
    elif warning >=value:
      print "CHECKGANGLIA WARNING: %s is %.2f" % (metric, value)
      sys.exit(1)
    else:
      print "CHECKGANGLIA OK: %s is %.2f" % (metric, value)
      sys.exit(0)

修改好之后（注意上面文件中ganglia_host及ganglia_port变量修改）
./check_ganglia.py   试一下，没问题
-h   指定主机。在这里须要注意的是，这里填写的是主机名。前提是IP能够被解析。
在/var/lib/ganglia/rrds/my cluster/里面能够看到相应的主机名
-m   检测的是什么参数，在rrds目录下能够看到。命令中不带.rrd
-w   warning
-c   critical
例如
./check_ganglia.py -h 10.20.1.131 -m load_one -w 4 -c 5

2.追加获取ganglia数据命令

#vim /usr/local/nagios/etc/objects/commands.cfg

追加内容以下：

define command {
        command_name check_ganglia
        command_line $USER1$/check_ganglia.py -h $HOSTADDRESS$ -m $ARG1$ -w $ARG2$ -c $ARG3$
}

3.追加监测数据所在主机信息（文件为新追加）

#vim /usr/local/nagios/etc/objects/hosts.cfg

文件内容以下：

define host{
        use                             linux-server
        host_name                       test
        address                         10.20.1.131
}

define hostgroup{
        hostgroup_name ganglia-servers
        alias ganglia-servers
        members test
}

4.追加监测metrics信息(文件为新追加)

#vim /usr/local/nagios/etc/objects/services.cfg

文件内容以下：

define servicegroup{
        servicegroup_name ganglia-metrics
        alias Ganglia Metrics
}
define service{
        use     ganglia-service
        host_name test
        hostgroup_name ganglia-servers
        service_description load_one
        check_command   check_ganglia!load_one!4!5
}
define service{
        use     ganglia-service
        host_name test
        hostgroup_name ganglia-servers
        service_description mem_free
        check_command   check_ganglia!mem_free!50000!40000
}

5.追加模板信息

#vim /usr/local/nagios/etc/objects/templates.cfg

追加内容以下：

define service {
        use generic-service
        name ganglia-service
        hostgroup_name ganglia-servers
        service_groups ganglia-metrics
        register        0
}

6.追加配置文件关联

#vim /usr/local/nagios/etc/nagios.cfg

追加内容以下：

#引进host文件
cfg_file=/usr/local/nagios/etc/objects/hosts.cfg

#引进监控项的文件
cfg_file=/usr/local/nagios/etc/objects/services.cfg

7. 修改gmetad配置，使其share监控数据

由于默认状况下，ganglia的gmetad服务不会share监控指标给网络上的其余机器，默认只能把数据传输到localhost，因此须要作相应的配置，使其能够share相应数据给其余机器。主要是考虑nagios的主机与ganglia的主机没在同一台机器上。

# vi /etc/ganglia/gmetad.conf

修改内容以下：

trusted_hosts 10.20.1.158 ##添加信任的主机IP

8.重启ganglia及nagios服务

ganglia:

#service ganglia-monitor restart

#service gmetad restart

nagios:

#service nagios restart

9.访问