(DDPG)深度确定策略梯度调参体会

花了一个星期,昨晚终于调出了还算能工作的模型,真的很难。赶紧记下来备忘。 直接使用论文中的参数,我没有把模型调出来,参数基本上都修改了。下图是论文对于参数的配置说明。 按论文说的来。 1, “a base learning rate of 10−3 and 10−4 for the actor and critic respectively”。论文使用 10−3 的学习率来训练actor网络,使用
相关文章
相关标签/搜索