强化学习 3 —— 使用蒙特卡洛（MC）解决无模型问题

时间 2020-12-30

原文原文链接

强化学习 3—— Model-free MC 一、问题引入回顾上篇强化学习 2 —— 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1、策略迭代过程： 1、评估价值 (Evaluate) v i ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) ⋅ v i − 1 ( s ′ )