DQN解决cartpole原理

标签(): 机器学习 文章目录 @[toc] 为什么需要DQN DQN与Q学习? DQN算法更新 附录(莫凡代码) 当学习状态空间很大,例如围棋的学习中,由于状态空间过大导致Q表远远超过内存,所以在复杂学习情况下Q表更新并不适用。 取而代之的是用神经网络当做Q表使用,第一种神经网络是输入状态和动作,输出动作的评价值,第二种神经网络是输入状态输出所有动作和该动作的评价值,再从中选取评价高的动作进行决
相关文章
相关标签/搜索