深度增强学习David Silver（七）——Policy Gradient

时间 2021-01-12

原文原文链接

本文主要内容： Finite Difference Policy Gradient Monte-Carlo Policy Gradient 上节课我们使用参数估计了价值函数和行动-价值函数，而当讲到策略时，我们只提到 ϵ \epsilon ϵ-greedy。在这节课，我们将会直接参数化策略 π θ ( s , a ) = P ( a ∣ s , θ ) \pi_\theta(s,a)=\sf{P}