TensorFlow on Kubernetes性能瓶颈定位

当前性能问题描述 增加worker数,一定范围内能带来较好的性能提升,但是继续增加worker数时,训练性能提升不明显; 增加ps数,一定范围内能带来较好的性能提升,但是继续增加ps数时,训练性能提升不明显; 可能原因: 与ps和worker的分布情况强相关: 目前的调度策略,主要根据服务器的cpu和内存使用情况进行均衡调度,尽量使得集群中每台服务器的cpu和内存使用率相当。这种情况下,ps和wo
相关文章
相关标签/搜索