notes3-- 深度强化学习入门到熟练(Shusen Wang)

Policy-Based RL 用神经网络近似策略函数 π \pi π 回顾 State-Value Function Approximation 使用策略网络 π ( a ∣ s t ; θ ) \pi(a|s_{t};\theta) π(a∣st​;θ)代替策略函数 π ( a ∣ s t ) \pi(a|s_{t}) π(a∣st​) 对 S S S求期望,消去 S S S,只有 θ \th
相关文章
相关标签/搜索