强化学习（RLAI）读书笔记第十一章 Off-policy Methods with Approximation

时间 2020-12-27

标签 RLAI 繁體版

原文原文链接

本书第五章就已经讲解过分别使用on-policy和off-policy方法来解决GPI框架里固有的explore和exploit的矛盾。前两章已经讲了on-policy情形下对于函数近似的拓展，本章继续讲解off-policy下对函数近似的拓展，但是这个拓展比on-policy时更难更不同。在第六第七章中讲到的off-policy方法可以拓展到函数近似的情况下，但是这些方法在半梯度法下不能像在on

>>阅读原文<<