强化学习-An introduction之 时序差分(TD Learning) 我的笔记

Chapter 6 Temporal-Difference Learning MC方法是经过考虑采样轨迹,克服了模型未知给策略估计形成的困难,可是它须要在完成一个采样轨迹后再更新策略的值估计;而以前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言,MC方法效率低得多。主要缘由是MC方法没有利用学习任务的MDP结构。html TD Learning则结合了DP和MC的
相关文章
相关标签/搜索