Kubernetes的共享GPU集群调度

时间 2019-12-04

原文原文链接

问题背景git 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力，可是一般都是将一个GPU卡分配给一个容器。这能够实现比较好的隔离性，确保使用GPU的应用不会被其余应用影响；对于深度学习模型训练的场景很是适合，可是若是对于模型开发和模型预测的场景就会比较浪费。你们的诉求是可以让更多的预测服务共享同一个GPU卡上，进而提升集群中Nvidia GPU的利用

>>阅读原文<<