增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

时间 2021-01-15

原文原文链接

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning) 接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数。相对的，蒙特卡罗方法的特点则有：可以从经验中学习不需要环境模型状