强化学习-An introduction之时序差分（TD Learning）我的笔记

时间 2019-12-04

标签强化学习 introduction 时序差分 learning 我的笔记繁體版

原文原文链接

Chapter 6 Temporal-Difference Learning MC方法是经过考虑采样轨迹，克服了模型未知给策略估计形成的困难，可是它须要在完成一个采样轨迹后再更新策略的值估计；而以前介绍的基于DP的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。相比而言，MC方法效率低得多。主要缘由是MC方法没有利用学习任务的MDP结构。html TD Learning则结合了DP和MC的

>>阅读原文<<

强化学习-An introduction之 时序差分（TD Learning） 我的笔记

强化学习-An introduction之时序差分（TD Learning）我的笔记