强化学习(7):深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)

本文主要讲解有关 DDPG 算法的有关内容。 一、DDPG 算法 DDPG 是 Deep Deterministic Policy Gradient 的缩写,其中深度 (Deep) 代表 DQN;确定性(Deterministic)是指不再先生成各个动作的概率然后再选择概率最高的动作,而是直接输出一个确定性的动作;Policy Gradient 就不用解释了吧。 因为在 Actor-Critic
相关文章
相关标签/搜索