基于DCGM和Prometheus的GPU监控方案

基于DCGM和Prometheus的GPU监控方案 背景: 在早期的GPU监控中咱们会使用一些NVML工具来对GPU卡的基本信息进行采集,并持久化到监控系统的数据存储层。由于咱们知道,其实经过nvidia-smi这样的命令也是能够获取到GPU的基本信息的,但随着整个AI市场的发展和成熟,对于GPU的监控也愈来愈须要一套标准化的工具体系,也就是本篇文章讲的关于DCGM相关的监控解决方案。git DC
相关文章
相关标签/搜索