强化学习-An introduction之时序差分（TD Learning）个人笔记

时间 2020-12-30

标签强化学习时序差分 TD Learning Sarsa 繁體版

原文原文链接

Chapter 6 Temporal-Difference Learning MC方法是通过考虑采样轨迹，克服了模型未知给策略估计造成的困难，但是它需要在完成一个采样轨迹后再更新策略的值估计；而之前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言，MC方法效率低得多。主要原因是MC方法没有利用学习任务的MDP结构。 TD Learning则结合了DP和MC的思想，能

>>阅读原文<<

强化学习-An introduction之 时序差分（TD Learning） 个人笔记

强化学习-An introduction之时序差分（TD Learning）个人笔记