强化学习与DQN

在Q-learning中很重要的一点,是要去预估未来收益,所以在离散情况下,一般用的是table-based Q-learning算法。它会给出一张表,不断去迭代,直到这张表收敛稳定。当状态空间太大,例如围棋和游戏,就要用深度神经网络。 强化学习存在的两点问题: 1.信用分配问题(credit assignment problem) 击中砖块并且得分和前一时刻如何移动横杆没有直接关系;前面某一时刻
相关文章
相关标签/搜索