解读continuous control with deep reinforcement learning(DDPG)

版权声明:本文为博主原创文章,未经博主允许不得转载。 博主:shenshikexmu 联系方式:[email protected] 缘起 DDPG,是Google Deepmind第一篇关于连续动作的深度加强学习论文(是否第一篇存疑)。DQN(Deep Q Network)生成的策略执行的动作是离散或者低维的,虽然在状态输入上可以是高维的观察状态。如在DQN2014中,有效的动作在4到18个之间,
相关文章
相关标签/搜索