深度强化学习5——Deep Q-Learning(DQN)

之前大量叙述了强化学习的基本原理,至此才开始真正的深度强化学习的部分。2013和2015年DeepMind的Deep Q Network(DQN)它用一个深度网络代表价值函数,依据强化学习中的Q-Learning,为深度网络提供目标值,对网络不断更新直至收敛。用DQN从玩各种电子游戏开始,直到训练出阿尔法狗打败了人类围棋选手。本篇文章也主要围绕DeepMind的论文Human-level cont
相关文章
相关标签/搜索