强化学习课程笔记(三)——不基于模型的预测与控制

第四章 不基于模型的预测 其中本章将聚焦于策略评估,也就是预测问题;下一章将利用本讲的主要观念来进行控制进而找出最优策略以及最有价值函数。 本章分为三个部分,将分别从理论上阐述基于完整采样的蒙特卡罗强化学习、基于不完整采样的时序差分强化学习以及介于两者之间的 λ 时序差分强化学习。这部分内容比较抽象,在讲解理论的同时会通过一些精彩的实例来加深对概念和算法的理解。 4.1蒙特卡罗强化学习 蒙特卡罗强
相关文章
相关标签/搜索