深度学习-加强学习概览

(1) DQN与DDPG算法 离散状态:api DQN是一个面向离散控制的算法,即输出的动做是离散的。对应到Atari 游戏中,只须要几个离散的键盘或手柄按键进行控制。网络 然而在实际中,控制问题则是连续的,高维的,好比一个具备6个关节的机械臂,每一个关节的角度输出是连续值,假设范围是0°~360°,归一化后为(-1,1)。若把每一个关节角取值范围离散化,好比精度到0.01,则一个关节有200个取
相关文章
相关标签/搜索