(DDPG)深度确定策略梯度调参体会

时间 2021-01-12

原文原文链接

花了一个星期，昨晚终于调出了还算能工作的模型，真的很难。赶紧记下来备忘。直接使用论文中的参数，我没有把模型调出来，参数基本上都修改了。下图是论文对于参数的配置说明。按论文说的来。 1， “a base learning rate of 10−3 and 10−4 for the actor and critic respectively”。论文使用 10−3 的学习率来训练actor网络，使用