DRL---------DQN详解

总结一下DQN. 在传统的强化学习中,例如Q_learning以及Sarsa都需要一张由状态S以及行为A组成的Q表,行为的种类一般较少,比如常见的前进后退两种或上下左右四种等,也就是Q表的列一般还好,可是状态的话就不一定了,有些场景的状态多到可怕,就比如围棋等等,也就是Q表的行数过多,导致的结果就是难以维护如此大的一张Q表。 现在假设有一个函数 f(x) 如果输入状态S就可以得到每个行为的Q值即
相关文章
相关标签/搜索