zabbix监控GPU显卡温度 监控GPU显卡使用状态:前端
1、zabbix监控GPU温度web
一、zabbix_agent端操做:shell
进入zabbix_agent安装目录:
cd /usr/local/zabbix/etc
vim
查看cpu显卡信息: bash
nvidia-smi 获取到三块显卡信息:
建立三个文件 (有几块显卡就建立几个): 根据显卡编号建立 从0开始 touch gpu_temperature_v{0..2}.sh chmod o+x gpu_temperature_v*
使用awk命令获取到每一个显卡的温度值 根据本身的显卡位置数:ide
获取第9行信息过滤: nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'
nvidia-smi|awk 'NR==12'|awk '{print$3}' |awk -FC '{print$1}' nvidia-smi|awk 'NR==15'|awk '{print$3}' |awk -FC '{print$1}'
获取到的添加到对于的.sh脚本中学习
cat gpu_temperature_v0.sh #!/bin/bash nvidia-smi|awk 'NR==9'|awk '{print$3}' |awk -FC '{print$1}'
)3d
zabbix-agentd里配置:rest
vim /usr/local/zabbix/etc/zabbix_agentd.conf 添加: UserParameter=gpu_temperature_v0.sh,/usr/local/zabbix/etc/gpu_temperature_v0.sh UserParameter=gpu_temperature_v1.sh,/usr/local/zabbix/etc/gpu_temperature_v1.sh UserParameter=gpu_temperature_v2.sh,/usr/local/zabbix/etc/gpu_temperature_v2.sh UserParameter=gpu_temperature_v3.sh,/usr/local/zabbix/etc/gpu_temperature_v3.sh
gpu自身的监控: nvidia-smi 每2秒监控一次: watch -n 2 nvidia-smi 从新zabbix_agent:
zabbix WEB端操做:code
一、选择对于的主机、建立zabbix监控项
二、名称zabbix_aagent配置里的名称、键值脚本名字 添加监控项:
三、配置触发器 名称建立成同样的
四、配置监控图形
名称都建立为同样的:
查看图形获取信息
依次建立3个图形信息 五、前端配置图形界面 配置完 显卡存储后最终效果
2、zabbix监控GPU显存使用状态
进入zabbix_agent安装目录:
一、GPU使用信息获取:
cd /usr/local/zabbix/etc/video_memory 查看GPU显存使用状态: nvidia-smi
4块gpu建立4个shell脚本: touch gpu_video_memory_v{0..3}.sh chmod o+x gpu_video_memory_v* nvidia-smi -q | grep -A 3 "FB Memory Usage"
分别单独获取每块gpu已使用信息: nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==1 {print}' nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==2 {print}' nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used |awk '{print $3}'|awk 'NR==3 {print}' nvidia-smi -q | grep -A 3 "FB Memory Usage" | grep Used | awk '{print $3}' | awk 'NR==4 {print}'
二、zabbix_agent配置文件操做:
命名键值:gpu_video_memory_v0....... ######### GPU video_memory mib############ UserParameter=gpu_video_memory_v0,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v0.sh UserParameter=gpu_video_memory_v1,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v1.sh UserParameter=gpu_video_memory_v2,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v2.sh UserParameter=gpu_video_memory_v3,/usr/local/zabbix/etc/video_memory/gpu_video_memory_v3.sh
配置完成重启zabbix_agent: /etc/init.d/zabbix_agentd restart
三、zabbix web前端配置:
建立监控项:
配置触发器:
配置完成后能看到绿色图片则正常:
配置图形 名称都保持同样:
最后再主界面配置图形显示: 一、建立图形模块: 类型选择图形 、名称尽可能填写相同
选择主机和刚才建立的监控项:
全部操做有几块gpu显卡就建立几回:
最终效果:
.
.
.
.
最后:本人为纯小白,所写博客为我的学习记录,如某些地方编写有错误,或者涉及侵权的请联系我删除或修改。Q Q:7721552邮箱:7721552@qq.com