深度强化学习——连续动做控制DDPG、NAF

联系方式:860122112@qq.comweb 传统的DQN只适用于离散动做控制,而DDPG和NAF是深度强化学习在连续动做控制上的拓展。算法 1、存在的问题 DQN是一个面向离散控制的算法,即输出的动做是离散的。对应到Atari 游戏中,只须要几个离散的键盘或手柄按键进行控制。网络 然而在实际中,控制问题则是连续的,高维的,好比一个具备6个关节的机械臂,每一个关节的角度输出是连续值,假设范围是
相关文章
相关标签/搜索