强化学习-An introduction之 时序差分(TD Learning) 个人笔记

Chapter 6 Temporal-Difference Learning MC方法是通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,但是它需要在完成一个采样轨迹后再更新策略的值估计;而之前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言,MC方法效率低得多。主要原因是MC方法没有利用学习任务的MDP结构。 TD Learning则结合了DP和MC的思想,能
相关文章
相关标签/搜索