强化学习(二)A3C算法详解,从policy gradient到Asynchronous Advantage Actor-critic

Asynchronous Advantage Actor-critic 在强化学习中,有许多经典的模型,其中一个就是A3C,全称是Asynchronous Advantage Actor-critic。这种模型其实是从之前我们提及的最基本的policy gradient模型一步一步发展来的。最初的强化学习模型中只有一个actor,这个actor的作用是根据当前对于environment的obser
相关文章
相关标签/搜索