强化学习(四):蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)

上一节讲的是在已知模型的情况下,如何去解决一个马尔科夫决策过程(MDP)问题。方法就是通过动态规划来评估一个给定的策略,通过不断迭代最终得到最优价值函数。具体的做法有两个:一个是策略迭代,一个是值迭代。从这一节开始,我们将要进入模型未知的情况下,如何去解决一个MDP问题的方法。所谓的模型未知,即状态转移概率 Pass′ P s s ′ a 这些我们是不知道的。所以我们无法直接利用Bellman方程
相关文章
相关标签/搜索