zabbix监控GPU显卡温度 监控GPU显卡使用状态

zabbix监控GPU显卡温度 监控GPU显卡使用状态:前端


zabbix监控GPU显卡温度 监控GPU显卡使用状态

1、zabbix监控GPU温度web

一、zabbix_agent端操做:shell

进入zabbix_agent安装目录:
cd /usr/local/zabbix/etcvim

查看cpu显卡信息: bash

nvidia-smi     获取到三块显卡信息:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

建立三个文件 (有几块显卡就建立几个):
根据显卡编号建立 从0开始
touch gpu_temperature_v{0..2}.sh 
chmod o+x gpu_temperature_v*

zabbix监控GPU显卡温度 监控GPU显卡使用状态

使用awk命令获取到每一个显卡的温度值 根据本身的显卡位置数:ide

获取第9行信息过滤:
    nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'

zabbix监控GPU显卡温度 监控GPU显卡使用状态

nvidia-smi|awk 'NR==12'|awk '{print$3}' |awk -FC '{print$1}'
nvidia-smi|awk 'NR==15'|awk '{print$3}' |awk -FC '{print$1}'

获取到的添加到对于的.sh脚本中学习

cat gpu_temperature_v0.sh 

    #!/bin/bash
    nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'

zabbix监控GPU显卡温度 监控GPU显卡使用状态)3d

zabbix-agentd里配置:rest

vim /usr/local/zabbix/etc/zabbix_agentd.conf
    添加:
    UserParameter=gpu_temperature_v0.sh,/usr/local/zabbix/etc/gpu_temperature_v0.sh
    UserParameter=gpu_temperature_v1.sh,/usr/local/zabbix/etc/gpu_temperature_v1.sh
    UserParameter=gpu_temperature_v2.sh,/usr/local/zabbix/etc/gpu_temperature_v2.sh
    UserParameter=gpu_temperature_v3.sh,/usr/local/zabbix/etc/gpu_temperature_v3.sh

zabbix监控GPU显卡温度 监控GPU显卡使用状态

gpu自身的监控:
            nvidia-smi 
    每2秒监控一次:
            watch -n 2 nvidia-smi
    从新zabbix_agent:

zabbix WEB端操做:code

一、选择对于的主机、建立zabbix监控项

zabbix监控GPU显卡温度 监控GPU显卡使用状态

二、名称zabbix_aagent配置里的名称、键值脚本名字 添加监控项:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

三、配置触发器 名称建立成同样的

zabbix监控GPU显卡温度 监控GPU显卡使用状态

四、配置监控图形

zabbix监控GPU显卡温度 监控GPU显卡使用状态

名称都建立为同样的:

zabbix监控GPU显卡温度 监控GPU显卡使用状态
查看图形获取信息
zabbix监控GPU显卡温度 监控GPU显卡使用状态

依次建立3个图形信息
五、前端配置图形界面 配置完 显卡存储后最终效果

zabbix监控GPU显卡温度 监控GPU显卡使用状态
zabbix监控GPU显卡温度 监控GPU显卡使用状态

2、zabbix监控GPU显存使用状态

进入zabbix_agent安装目录:
一、GPU使用信息获取:

cd /usr/local/zabbix/etc/video_memory
    查看GPU显存使用状态:
    nvidia-smi

zabbix监控GPU显卡温度 监控GPU显卡使用状态

4块gpu建立4个shell脚本:
    touch gpu_video_memory_v{0..3}.sh
    chmod o+x gpu_video_memory_v*

    nvidia-smi -q | grep -A 3  "FB Memory Usage"

zabbix监控GPU显卡温度 监控GPU显卡使用状态

分别单独获取每块gpu已使用信息:
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==1 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==2 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==3 {print}'
    nvidia-smi -q | grep -A 3  "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==4 {print}'

zabbix监控GPU显卡温度 监控GPU显卡使用状态

二、zabbix_agent配置文件操做:

命名键值:gpu_video_memory_v0.......
    ######### GPU video_memory  mib############
    UserParameter=gpu_video_memory_v0,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v0.sh
    UserParameter=gpu_video_memory_v1,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v1.sh
    UserParameter=gpu_video_memory_v2,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v2.sh
    UserParameter=gpu_video_memory_v3,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v3.sh

zabbix监控GPU显卡温度 监控GPU显卡使用状态

配置完成重启zabbix_agent:
    /etc/init.d/zabbix_agentd restart

三、zabbix web前端配置:

建立监控项:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

配置触发器:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

配置完成后能看到绿色图片则正常:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

配置图形 名称都保持同样:

zabbix监控GPU显卡温度 监控GPU显卡使用状态

最后再主界面配置图形显示:
一、建立图形模块:

    类型选择图形 、名称尽可能填写相同

zabbix监控GPU显卡温度 监控GPU显卡使用状态

选择主机和刚才建立的监控项:

zabbix监控GPU显卡温度 监控GPU显卡使用状态
全部操做有几块gpu显卡就建立几回:
最终效果:
zabbix监控GPU显卡温度 监控GPU显卡使用状态

.

.

.

.


最后:本人为纯小白,所写博客为我的学习记录,如某些地方编写有错误,或者涉及侵权的请联系我删除或修改。Q Q:7721552邮箱:7721552@qq.com

相关文章
相关标签/搜索