Double-DQN算法target网络和predict网络区别

Double-DQN框架主要包括以下几部分: 构建eval神经网络和target神经网络模块 训练eval神经网络模块 更新target神经网络模块 根据eval值选择动作模块。 为了将动作选择和价值估计进行解耦,我们有了Double-DQN方法。在Double-DQN中,在计算Q实际值时,动作选择由eval-net得到,而价值估计由target-net得到。此时,损失函数变为: DQN算法图如下
相关文章
相关标签/搜索