论文阅读(DRQN):Deep Recurrent Q-Learning for Partially Observable MDPs

简单概括该文: a、创新之处:提出QRQN结构:DQN+LSTM b、创新原因:DQN有两个缺陷——1、经验池内存有限制;2、每个决策点都需要完整的游戏界面。 c、改动措施:将DQN的第一个全连接层换成LSTM网络 Introduction: DQN只取了过去四帧(即四张图)作为输入,而如果游戏需要四帧以上的记忆,则将出现部分可观测马尔科夫性(Partially-Observable Markov
相关文章
相关标签/搜索