DQN、QQDN和Dueling DQN公式推导分析

一、值函数估计方法引入 在值函数估计方法中,我们希望拟合一个价值模型用来估计每个状态动作对的累积回报。其代价函数可以写为 L = 1 2 ∑ a ∑ s ( Q ( s , a ) − Q ( s , a ; θ ) ) 2 L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2 L=21​a∑​s∑​(Q(s,a)−Q(s,a;θ))2 其中
相关文章
相关标签/搜索