强化学习之DDPG（deep deterministic policy gradient）

时间 2021-01-02

标签强化学习繁體版

原文原文链接

1）出发点是什么？之前的几种算法是基于离散动作的，现实生活中会存在连续动作，比如方向盘的角度等等。DDPG是为了解决连续动作应用而生。与上一个博客不同的是激活函数的选择是tanh,将动作缩放到一定的区间，这样来表示连续动作。 2）什么是DDPG？一张图很清晰啦。使用到了上一个博客中的时序差分，并且是确定性策略。在DDPG中，输入的动作需要由策略网络产生，这样完整的网络称为演员-评论家模式。

>>阅读原文<<