1~8.PART one总结--阅读笔记【Reinforcement Learning An Introduction 2nd】

本书主要分为三大部分,分别是基于表格的方法;近似策略方法;扩展部分。 第一部分属于rl基础内容,基本涵盖了基于值函数方法的核心思想。要熟悉并善于分析不同方法之间的区别和联系,构建起整个知识体系框架。 之前我们所讲的方法都有很多共同点: 试图估计值函数; 通过对实际的或仿真的经验进行备份操作来更新值函数;都遵循GPI框架。 尽管大体框架都相同,但彼此之间还是有区别的,重要的区分维度就是更新的深度和宽
相关文章
相关标签/搜索