第九章 深度强化学习-Double DQN

获取更多资讯,赶快关注上面的公众号吧! 文章目录 第九章 深度强化学习-Double DQN 9.1 回顾 9.2 过高估计 9.3 Double DQN References 第九章 深度强化学习-Double DQN   目前流行的Q-learning算法会过高的估计在特定条件下的动作值。实际上,在实践中,这种过高的估计是否常见,是否会损害性能,以及是否可以预防,这些以前都不知道。于是Hado
相关文章
相关标签/搜索