《强化学习Sutton》读书笔记(七)——列表法的计划与学习(Planning and Learning with Tabular Methods)

此为第八章 Planning and Learning with Tabular Methods 。 在上述章节中,我们已经看到了DP是基于模型 (Model-Based) 的,而MC和TD是模型无关的 (Model-Free) 。基于模型的方法中,Planning(下文定义这个词)是最主要的一步;而对于模型无关的问题,Learning是最核心的步骤。Planning和Learning有很多异同点
相关文章
相关标签/搜索