深度学习（四十一）——深度强化学习（4）A2C & A3C, DDPG

时间 2021-01-16

原文原文链接

A2C & A3C Actor-Critic一般简称AC算法。针对它的一般用法参见《机器学习（三十五）》。 AC算法也可用于DRL领域，具体的做法和DQN类似：一个Actor网络，用来近似V值。一个Critic网络，用来近似Q值。这里有个小技巧： Actor网络和Critic网络可以共享网络参数，两者仅最后几层使用不同结构和参数。（参见下图A3C的图）针对AC的改进，衍生出了A2C和A3C

>>阅读原文<<