在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架

AC算法框架被广泛应用于实际强化学习算法中,该框架集成了值函数估计算法和策略搜索算法,是解决实际问题时最常考虑的框架。大家众所周知的alphago便用了AC框架。而且在强化学习领域最受欢迎的A3C算法,DDPG算法,PPO算法等都是AC框架。我们这一讲便总结下AC算法的发展并介绍目前最受关注的A3C算法和PPO算法。 本讲的内容包括: 1.1 策略梯度的直观解释 1.2 Actor-Critic框
相关文章
相关标签/搜索