强化学习，深度强化学习

时间 2019-12-05

标签强化学习深度繁體版

原文原文链接

DQN的局限性 Atari 游戏所需的动做是离散的（有时间间隔的输出），相对低维的（只有少数几个动做），而实际的控制问题则是连续的，高维的。DQN没法直接应用到这样的领域，由于连续的值（好比输出一个速度）须要在每一步都做出优化迭代，DQN只是根据动做对Q值作优化。要直接应用DQN到连续动做领域，最简单的作法就是将连续动做离散化，也就是依然每一个时间间隔输出一个动做值，把每一个动做也离散化。但这

>>阅读原文<<