深度学习-加强学习概览

时间 2019-12-05

标签深度学习加强概览繁體版

原文原文链接

(1) DQN与DDPG算法离散状态：api DQN是一个面向离散控制的算法，即输出的动做是离散的。对应到Atari 游戏中，只须要几个离散的键盘或手柄按键进行控制。网络然而在实际中，控制问题则是连续的，高维的，好比一个具备6个关节的机械臂，每一个关节的角度输出是连续值，假设范围是0°~360°，归一化后为（-1，1）。若把每一个关节角取值范围离散化，好比精度到0.01，则一个关节有200个取

>>阅读原文<<