Chapter 7 n-step Bootstrapping

核心思想就是在做bootstrapping之前再向前多走几步 7.1 n-step TD Prediction temporal difference 扩展了n步,这就被称为n-step TD methods n-step returns Gt:t+n≐Rt+1+γRt+2+⋯+γn−1Rt+n+γnVt+n−1(St+n) G t : t + n ≐ R t + 1 + γ R t + 2 +
相关文章
相关标签/搜索