深度强化学习DQN

时间 2020-12-27

原文原文链接

DQN模型输入的是处理后的连续帧图像（降维幅度图），经过卷积层层后接两个全连接层，输出是所有动作的Q值。算法 1. NIPS 2013 2. Nature 2015 2.1 算法 2.2 流程图 3. 不足由于Replay Memory原因：无法应用于连续动作控制；只能处理只需短时记忆问题，无法处理需长时记忆问题（后续研究提出了使用LSTM等改进方法）；