强化学习,深度强化学习

DQN的局限性 Atari 游戏所需的动做是离散的(有时间间隔的输出),相对低维的(只有少数几个动做),而实际的控制问题则是连续的,高维的。DQN没法直接应用到这样的领域,由于连续的值(好比输出一个速度)须要在每一步都做出优化迭代,DQN只是根据动做对Q值作优化。  要直接应用DQN到连续动做领域,最简单的作法就是将连续动做离散化,也就是依然每一个时间间隔输出一个动做值,把每一个动做也离散化。但这
相关文章
相关标签/搜索