在强化学习领域最受欢迎的A3C算法，DDPG算法，PPO算法等都是AC框架

时间 2021-01-16

原文原文链接

AC算法框架被广泛应用于实际强化学习算法中，该框架集成了值函数估计算法和策略搜索算法，是解决实际问题时最常考虑的框架。大家众所周知的alphago便用了AC框架。而且在强化学习领域最受欢迎的A3C算法，DDPG算法，PPO算法等都是AC框架。我们这一讲便总结下AC算法的发展并介绍目前最受关注的A3C算法和PPO算法。本讲的内容包括： 1.1 策略梯度的直观解释 1.2 Actor-Critic框

>>阅读原文<<