【强化学习】actor-critic算法

actor:行动者,对应policy critic:评论者,对应value function值函数 (1)actor-only:将policy参数化,可以在算法过程中直接优化,因此action可以是连续的。优化方法通常为policy gradient方法,该方法的缺点为在估计梯度的时候将会产生较大的方差,导致学习速度较慢。  (2)critic-only:使用temporal difference
相关文章
相关标签/搜索