强化学习 3 —— 使用 蒙特卡洛(MC)解决无模型问题

强化学习 3—— Model-free MC 一、问题引入 回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程: 1、评估价值 (Evaluate) v i ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ⋅ v i − 1 ( s ′ )
相关文章
相关标签/搜索