强化学习之DDPG(deep deterministic policy gradient)

1)出发点是什么? 之前的几种算法是基于离散动作的,现实生活中会存在连续动作,比如方向盘的角度等等。DDPG是为了解决连续动作应用而生。 与上一个博客不同的是激活函数的选择是tanh,将动作缩放到一定的区间,这样来表示连续动作。 2)什么是DDPG? 一张图很清晰啦。使用到了上一个博客中的时序差分,并且是确定性策略。 在DDPG中,输入的动作需要由策略网络产生,这样完整的网络称为演员-评论家模式。
相关文章
相关标签/搜索