深度强化学习——连续动作控制DDPG、NAF

时间 2021-07-13

原文原文链接

传统的DQN只适用于离散动作控制，而DDPG和NAF是深度强化学习在连续动作控制上的拓展。一、存在的问题 DQN是一个面向离散控制的算法，即输出的动作是离散的。对应到Atari 游戏中，只需要几个离散的键盘或手柄按键进行控制。然而在实际中，控制问题则是连续的，高维的，比如一个具有6个关节的机械臂，每个关节的角度输出是连续值，假设范围是0°~360°，归一化后为（-1，1）。若把每个关节角取值范

>>阅读原文<<