强化学习（RLAI）读书笔记第七章n步自举（n-step Bootstrapping）

时间 2021-01-04

标签强化学习繁體版

原文原文链接

第七章：n-step Bootstrapping 这一章中我们把蒙特卡洛算法(MC)和一步差分算法(one-step TD)统一起来。MC算法和一步TD算法都不可能永远是最好的。这两个方法都是比较极端的形式，可能使用它们中间形式会更好一些。另一个看待n步TD算法的优势的角度是它解决了固定时间步骤的缺点。比如一步TD算法固定了每次选择动作和更新值的时间间隔。很多应用中想要把发生的改变快速更新到值函数

>>阅读原文<<