Double-DQN算法target网络和predict网络区别

时间 2021-01-07

原文原文链接

Double-DQN框架主要包括以下几部分：构建eval神经网络和target神经网络模块训练eval神经网络模块更新target神经网络模块根据eval值选择动作模块。为了将动作选择和价值估计进行解耦，我们有了Double-DQN方法。在Double-DQN中，在计算Q实际值时，动作选择由eval-net得到，而价值估计由target-net得到。此时，损失函数变为： DQN算法图如下