强化学习(RLAI)读书笔记第十一章 Off-policy Methods with Approximation

本书第五章就已经讲解过分别使用on-policy和off-policy方法来解决GPI框架里固有的explore和exploit的矛盾。前两章已经讲了on-policy情形下对于函数近似的拓展,本章继续讲解off-policy下对函数近似的拓展,但是这个拓展比on-policy时更难更不同。在第六第七章中讲到的off-policy方法可以拓展到函数近似的情况下,但是这些方法在半梯度法下不能像在on
相关文章
相关标签/搜索