强化学习(6):Actor-Critic(演员评论家)算法

本文主要讲解有关 Actor-Critic 算法的有关知识。 一、Actor Critic 算法 Actor-Critic 算法合并了以策略为基础的 Policy Gradient和以值为基础的 Q-Learning 两类强化学习算法,该算法中将前者当作 Actor,用来基于概率选择行为。将后者当作 Critic,用来评判 Actor 的行为得分,然后 Actor 又会根据 Critic 的评分修
相关文章
相关标签/搜索