【深度强化学习 三】Actor-Critic及衍生算法简介(李宏毅老师学习视频笔记)

首先放视频链接李宏毅老师深度强化学习课程 Actor-Critic算法简介 这是一种policy based和value based方法的结合。首先复习一下加了discount和baseline的policy gradient算法: ∇ R ˉ θ ≈ 1 N ∑ n = 1 N ∑ t = 1 T n ( ∑ t ′ = t T n γ t ′ − t r t ′ n − b ) ∇ log ⁡
相关文章
相关标签/搜索