强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)

时间 2019-12-06

标签强化学习 montecarlo 时序差分 learning 繁體版

原文原文链接

上一节讲的是在已知模型的状况下，如何去解决一个马尔科夫决策过程(MDP)问题。方法就是经过动态规划来评估一个给定的策略，经过不断迭代最终获得最优价值函数。具体的作法有两个：一个是策略迭代，一个是值迭代。从这一节开始，咱们将要进入模型未知的状况下，如何去解决一个MDP问题的方法。所谓的模型未知，即状态转移几率 Pass′ P s s ′ a 这些咱们是不知道的。因此咱们没法直接利用Bellman方程

>>阅读原文<<