论文阅读（DRQN）：Deep Recurrent Q-Learning for Partially Observable MDPs

时间 2021-01-17

原文原文链接

简单概括该文： a、创新之处：提出QRQN结构：DQN+LSTM b、创新原因：DQN有两个缺陷——1、经验池内存有限制；2、每个决策点都需要完整的游戏界面。 c、改动措施：将DQN的第一个全连接层换成LSTM网络 Introduction： DQN只取了过去四帧（即四张图）作为输入，而如果游戏需要四帧以上的记忆，则将出现部分可观测马尔科夫性（Partially-Observable Markov