强化学习与DQN

时间 2021-01-02

原文原文链接

在Q-learning中很重要的一点，是要去预估未来收益，所以在离散情况下，一般用的是table-based Q-learning算法。它会给出一张表，不断去迭代，直到这张表收敛稳定。当状态空间太大，例如围棋和游戏，就要用深度神经网络。强化学习存在的两点问题： 1.信用分配问题(credit assignment problem) 击中砖块并且得分和前一时刻如何移动横杆没有直接关系；前面某一时刻