强化学习 8.1

第8章 用计算机方法进行规划和学习 在本章中,我们开发了强化学习方法的统一视图,这些方法需要环境模型,例如动态规划和启发式搜索,以及可以在没有模型的情况下使用的方法,例如蒙特卡罗和时间差分方法。这些分别称为基于模型和无模型的强化学习方法。基于模型的方法依赖于计划作为其主要组成部分,而无模型方法主要依赖于学习。虽然这两种方法之间存在着真正的差异,但也存在很大的相似之处。特别是,这两种方法的核心是价值
相关文章
相关标签/搜索