深度增强学习David Silver(七)——Policy Gradient

本文主要内容: Finite Difference Policy Gradient Monte-Carlo Policy Gradient 上节课我们使用参数估计了价值函数和行动-价值函数,而当讲到策略时,我们只提到 ϵ \epsilon ϵ-greedy。在这节课,我们将会直接参数化策略 π θ ( s , a ) = P ( a ∣ s , θ ) \pi_\theta(s,a)=\sf{P}
相关文章
相关标签/搜索