《强化学习Sutton》读书笔记(六)——n步Bootstrapping(n-step Bootstrapping)

此为《强化学习》第七章 n-step Bootstrapping 。 n n 步Bootstrapping是MC和TD(0)的综合。随着对参数 n n 的调整,我们可以看到TD是如何过渡到MC的。而最佳的方法往往就是介于TD和MC之间。 n n 步TD估计 在上一章的TD(0)方法中,我们有 v(St)←v(St)+α(Gt−v(St)) v ( S t ) ← v ( S t ) + α ( G
相关文章
相关标签/搜索