强化学习（二）A3C算法详解，从policy gradient到Asynchronous Advantage Actor-critic

时间 2021-01-02

原文原文链接

Asynchronous Advantage Actor-critic 在强化学习中，有许多经典的模型，其中一个就是A3C，全称是Asynchronous Advantage Actor-critic。这种模型其实是从之前我们提及的最基本的policy gradient模型一步一步发展来的。最初的强化学习模型中只有一个actor，这个actor的作用是根据当前对于environment的obser