深度强化学习5——Deep Q-Learning(DQN)

时间 2021-01-09

原文原文链接

之前大量叙述了强化学习的基本原理，至此才开始真正的深度强化学习的部分。2013和2015年DeepMind的Deep Q Network（DQN）它用一个深度网络代表价值函数，依据强化学习中的Q-Learning，为深度网络提供目标值，对网络不断更新直至收敛。用DQN从玩各种电子游戏开始，直到训练出阿尔法狗打败了人类围棋选手。本篇文章也主要围绕DeepMind的论文Human-level cont

>>阅读原文<<