DQN、QQDN和Dueling DQN公式推导分析

时间 2021-01-12

原文原文链接

一、值函数估计方法引入在值函数估计方法中，我们希望拟合一个价值模型用来估计每个状态动作对的累积回报。其代价函数可以写为 L = 1 2 ∑ a ∑ s ( Q ( s , a ) − Q ( s , a ; θ ) ) 2 L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2 L=21a∑s∑(Q(s,a)−Q(s,a;θ))2 其中