强化学习，深度强化学习

时间 2020-12-27

原文原文链接

DQN的局限性 Atari 游戏所需的动作是离散的（有时间间隔的输出），相对低维的（只有少数几个动作），而实际的控制问题则是连续的，高维的。DQN无法直接应用到这样的领域，因为连续的值（比如输出一个速度）需要在每一步都作出优化迭代，DQN只是根据动作对Q值做优化。要直接应用DQN到连续动作领域，最简单的做法就是将连续动作离散化，也就是依然每个时间间隔输出一个动作值，把每个动作也离散化。但这样存

>>阅读原文<<