【RL】Actor-Critic训练技巧

一 广义优势函数估计(GAE) 在VPG中,我们用的 r ( τ ) r(\tau) r(τ)的均值来指引策略的更新,这是个环境给出的“客观”的值;而在AC算法中,我们企图用A_{w}(s, a)来指引梯度更新,但根据算法的设计,这个所谓的A_{w}(s, a)完全是用我们的神经网络算出来的,是“主观的”而不是“客观的”。如果我们算出的A_{w}(s, a)与真实值相差较远,那么对于训练策略网络就
相关文章
相关标签/搜索