基于神经网络的DQN方法

Deep Q Nework 方法: 训练数据采用随机经验回放。TD回退结合TargetQ网络预测预估出一个目标量,再用Q网络预测的现实值,目标量与现实值差值更新两个网络的参数集合。 DeepQ Network算法的详细解释: 需要明白两个概念,一个是Q网络,一个是targrtQ网络,Q网络是我们预测网络,targrt Q网络可以认为是我们的训练网络,训练的目标是找到目标Q值:,这里目标Q值的定义依
相关文章
相关标签/搜索