深度学习批任务处理调度器与kubernetes默认调度器融合

kubernetes集群三步安装 什么是批处理任务 深度学习中经常会出现多机多卡的任务,也就是同事会起多个pod,但是这多个pod属于同一个任务。 这样就会有一个问题 一个任务要起100个pod,每个pod需要一张卡,总共需要100张GPU卡,而集群中只有99张空闲的GPU卡,这样默认的k8s调度器会如何处理? 因为默认调度器是一个一个pod调度的,只会检查单个pod资源够不够,这样前99个都能成
相关文章
相关标签/搜索