DQN&DDQN算法推导及分析

时间 2021-01-19

原文原文链接

一、DGP推导本篇介绍确定性策略梯度算法，该算法主要用于off-policy（on-policy也能用）。在DQN等值函数估计算法中，最终策略的形式是需要对动作状态值函数取极大 a = a r g m a x a ′ Q ( s , a ′ ) a={\rm argmax}_{a'}Q(s,a') a=argmaxa′Q(s,a′)，这种方法只能用在有限的离散动作空间中，无