Double DQN

时间 2021-01-07

原文原文链接

论文链接：https://arxiv.org/abs/1509.06461 由于深度神经网络提供了灵活的函数逼近与低渐近逼近误差的潜力，DQN 在 Atari 2600 游戏中的带来了更好的性能。但是，DQN有时也会大大高估行动的价值。使用 DQN的改进版本（Double DQN）能够产生更准确的值估计，减少 DQN 的过高估计，从而在游戏中获得更高的分数。给定策略 π \pi π ，在状态 s