【RL】6.Actor-Critic

RL-Ch6-Actor-Critic A2C:Advantage Actor-Critic A3C:Asynchronous Actor-Critic Advantage Function 我们在第四章Policy Gradient中从原始的梯度计算公式,引入baseline和时间步衰减的技巧后,得到Advantage Function,形式如下: A θ ( s t , a t ) = ∑ t
相关文章
相关标签/搜索