强化学习,深度强化学习

DQN的局限性 Atari 游戏所需的动作是离散的(有时间间隔的输出),相对低维的(只有少数几个动作),而实际的控制问题则是连续的,高维的。DQN无法直接应用到这样的领域,因为连续的值(比如输出一个速度)需要在每一步都作出优化迭代,DQN只是根据动作对Q值做优化。  要直接应用DQN到连续动作领域,最简单的做法就是将连续动作离散化,也就是依然每个时间间隔输出一个动作值,把每个动作也离散化。但这样存
相关文章
相关标签/搜索