第九章深度强化学习-Double DQN

时间 2021-01-12

原文原文链接

获取更多资讯，赶快关注上面的公众号吧！文章目录第九章深度强化学习-Double DQN 9.1 回顾 9.2 过高估计 9.3 Double DQN References 第九章深度强化学习-Double DQN 目前流行的Q-learning算法会过高的估计在特定条件下的动作值。实际上，在实践中，这种过高的估计是否常见，是否会损害性能，以及是否可以预防，这些以前都不知道。于是Hado

>>阅读原文<<

第九章 深度强化学习-Double DQN

第九章深度强化学习-Double DQN