DQN&DDQN算法推导及分析

一、DGP推导 本篇介绍确定性策略梯度算法,该算法主要用于off-policy(on-policy也能用)。在DQN等值函数估计算法中,最终策略的形式是需要对动作状态值函数取极大 a = a r g m a x a ′ Q ( s , a ′ ) a={\rm argmax}_{a'}Q(s,a') a=argmaxa′​Q(s,a′),这种方法只能用在有限的离散动作空间中,无
相关文章
相关标签/搜索