基于策略的强化学习(三):Actor—Critic算法

Actor—Critic算法 Actor—Critic算法的名字很形象,包含一个策略函数和行为价值函数,其中策略函数充当演员(Actor),生成行为与环境交互;行为价值函数充当(Critic),负责评价演员的表现,并指导演员的后续行为动作。Critic 的行为价值函数是基于策略 π θ \pi_θ πθ​ 的一个近似: 基于此,Actor—Critic算法遵循一个近似的策略梯度进行学习:Criti
相关文章
相关标签/搜索