DDPG,CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文阅读

DDPG算法是训练一个deterministic policy来处理动作连续的问题,主要是基于DQN的思想,训练一个Q-functon来衡量动作的Q值。一般的DQN方法得到下面这个Q的最优值是很容易的,因为动作是离散的,取对应Q值最大的动作即可。但是在连续动作上就不太好处理了。  原始的Q-Learning的贝尔曼方程是: 贝尔曼方程可以用来学习最优的Q函数,目标函数为:  因为连续动作没法像离散
相关文章
相关标签/搜索