horovod + tf.train.CheckpointSaverHook

最近在做分布式模型训练相关工作,利用到了horovod框架,当horovod+tf.train.MonitoredTrainingSession+tf.train.CheckpointSaverHook时,会出现horovod rank抢占之类的报错。并且在log中多次出现Create CheckpointSaverHook的信息。 并且由于MonitoredTrainingSession的重启机
相关文章
相关标签/搜索