RL学习笔记-6-DDPG 算法

在连续控制领域,比较经典的强化学习算法就是 DDPG(Deep Deterministic Policy Gradient)。DDPG 的特点可以从它的名字当中拆解出来,拆解成 Deep、Deterministic 和 Policy Gradient。 Deep 是因为用了神经网络; Deterministic 表示 DDPG 输出的是一个确定性的动作,可以用于连续动作的一个环境; Policy
相关文章
相关标签/搜索