【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning

论文题目:Deep Reinforcement Learning with Double Q-learning 所解决的问题?   Q-Learning算法中存在动作值函数过估计(overestimate action values)的问题(因为其更新方程中包含一个maximization动作值函数的一项),那这样的过估计问题是否会对其算法性能有所影响呢?能不能去避免这样的一种过估计问题呢? 背景
相关文章
相关标签/搜索