强化学习（五）----- 时间差分学习(Q learning, Sarsa learning)

时间 2021-01-08

原文原文链接

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。相对的，蒙特卡罗方法的特点则有：可以从经验中学习不需要环境模型状态值函数的估计是相互独立的只能用于episode tasks 而我们希望的算法是这样的：不需

>>阅读原文<<