强化学习(四) - 无模型学习(MC、TDL)

上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题。具体的做法有两个:一个是策略迭代,一个是值迭代。 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题。 模型未知,即状态转移概率 P a s s ′ P s s ′ a P s s ′ a Pass'Pss′a P^a_{ss′} Pass′Pss′aPss′a​Gt​) 区别: 蒙特卡罗每次
相关文章
相关标签/搜索