Actor Critic学习笔记

时间 2021-01-12

原文原文链接

什么是Actor-Critic Actor-Critic 的 Actor 是 Policy Gradients,因为他直接根据概率进行选择所以能够很容易选出当前最优解，而Q-learning存在 ϵ − g r e e d y \epsilon-greedy ϵ−greedy选择，不能及时选择出当前最优解.但是 Policy Gradients 容易陷入局部最优解，而且PG是回合更新，降低了学习效