【RL】Actor-Critic训练技巧

时间 2021-01-12

原文原文链接

一广义优势函数估计（GAE）在VPG中，我们用的 r ( τ ) r(\tau) r(τ)的均值来指引策略的更新，这是个环境给出的“客观”的值；而在AC算法中，我们企图用A_{w}(s, a)来指引梯度更新，但根据算法的设计，这个所谓的A_{w}(s, a)完全是用我们的神经网络算出来的，是“主观的”而不是“客观的”。如果我们算出的A_{w}(s, a)与真实值相差较远，那么对于训练策略网络就