强化学习(四) - 无模型学习(MC、TDL)

时间 2021-01-13

标签强化学习无模型 TDL 繁體版

原文原文链接

上一节讲的是在已知模型的情况下，通过动态规划来解决马尔科夫决策过程(MDP)问题。具体的做法有两个：一个是策略迭代，一个是值迭代。从这一节开始，我们将要进入模型未知的情况下，如何去解决MDP问题。模型未知，即状态转移概率 P s s ′ a P^a_{ss′} Pss′a 这些我们是不知道的。所以我们无法直接利用如下Bellman方程来求解V和Q值得到最优策略。所以，为了能够从环境中学习，

>>阅读原文<<