DRL(五)——DDPG

在我的笔记DRL(四)——value function中,大部分讲了Q Learning的算法、存在的问题和解决的措施。这一个笔记的内容是紧接上一篇的。 为什么要提出DDPG呢? 因为不管是DQN也好,DDQN也好,都是离散动作的,就是说,action是有限的。然而很多时候action都是连续的,这时候就需要新的方法了。 在连续动作空间中怎样选择最优action呢? 我们知道,在离散动作的Q Le
相关文章
相关标签/搜索