Double DQN

论文链接:https://arxiv.org/abs/1509.06461 由于深度神经网络提供了灵活的函数逼近与低渐近逼近误差的潜力,DQN 在 Atari 2600 游戏中的带来了更好的性能。但是,DQN有时也会大大高估行动的价值。使用 DQN的改进版本(Double DQN)能够产生更准确的值估计,减少 DQN 的过高估计,从而在游戏中获得更高的分数。 给定策略 π \pi π ,在状态 s
相关文章
相关标签/搜索