Actor Critic学习笔记

什么是Actor-Critic Actor-Critic 的 Actor 是 Policy Gradients,因为他直接根据概率进行选择所以能够很容易选出当前最优解,而Q-learning存在 ϵ − g r e e d y \epsilon-greedy ϵ−greedy选择,不能及时选择出当前最优解.但是 Policy Gradients 容易陷入局部最优解,而且PG是回合更新,降低了学习效
相关文章
相关标签/搜索