【强化学习】Deep Reinforcement Learning with Double Q-learning(2015)

Deep Reinforcement Learning with Double Q-learning(2015)web 传统的q learning被认为会太高估计action value,由于它包括了一个maximization step,这样就倾向于太高的估计价值的大小。以前的工做中,高估被归由于function approximation有限(?)。本文统一了这些观点,提出当action va
相关文章
相关标签/搜索