深度强化学习系列之(*): Double Q-Learning算法原理详解

论文地址: https://papers.nips.cc/paper/3964-double-q-learning.pdf 本论文是由DeepMind发表于2015年NIPS的一篇论文,作者Hasselt。 前言: Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在,而导致overestimation的主要原因来自于最大化值函数(
相关文章
相关标签/搜索