RL（六）时序差分法（TD）

时间 2021-01-13

原文原文链接

目录 1、时序差分概述 2、TD和蒙特卡罗算法的不同 3、TD(λ) 4、时序差分的控制问题求解 5、总结 1、时序差分概述前面我们讲了基于模型的动态规划和不基于模型的蒙特卡罗算法，他们都有各自的优点和缺点。动态规划能够很好的基于模型来求解强化学习，但是现实问题中很少能提前知道这个模型；蒙特卡罗算法能够一定程度上结局无模型的强化学习任务，但是它必须在拥有完整的序列的前提下才能得到好的效果，这在现