近端策略优化算法(PPO)

策略梯度算法法 (PG) 策略梯度迭代,通过计算策略梯度的估计,并利用随机梯度上升算法进行迭代。其常用的梯度估计形式为: E ^ t [ ∇ θ l o g π θ ( a t ∣ s t ) A ^ t ] \hat{\mathbb{E}}_t[\nabla_\theta log \pi_\theta(a_t | s_t)\hat{A}_t] E^t​[∇θ​logπθ​(at​∣st​)A^t
相关文章
相关标签/搜索