深度加强学习David Silver(七)——Policy Gradient

本文主要内容:html Finite Difference Policy Gradient Monte-Carlo Policy Gradient 上节课咱们使用参数估计了价值函数和行动-价值函数,而当讲到策略时,咱们只提到 ϵ \epsilon ϵ-greedy。在这节课,咱们将会直接参数化策略 π θ ( s , a ) = P ( a ∣ s , θ ) \pi_\theta(s,a)=\s
相关文章
相关标签/搜索