深度学习(四十一)——深度强化学习(4)A2C & A3C, DDPG

A2C & A3C Actor-Critic一般简称AC算法。针对它的一般用法参见《机器学习(三十五)》。 AC算法也可用于DRL领域,具体的做法和DQN类似: 一个Actor网络,用来近似V值。 一个Critic网络,用来近似Q值。 这里有个小技巧: Actor网络和Critic网络可以共享网络参数,两者仅最后几层使用不同结构和参数。(参见下图A3C的图) 针对AC的改进,衍生出了A2C和A3C
相关文章
相关标签/搜索