【RL】策略梯度的训练技巧

一 r ( τ ) r(\tau) r(τ)的baseline 毫无疑问, r ( τ ) r(\tau) r(τ)代表着轨道 τ \tau τ的好坏。按照我们推导出来的policy gradient的式子, r ( τ ) r(\tau) r(τ)大于0的时候,训练会使得这个轨道上涉及的所有 π w ( a i ∣ s i ) \pi_{w}\left(a_{i} \mid s_{i}\righ
相关文章
相关标签/搜索