Chapter 6 Temporal-Difference Learning

TD可以根据episode的一部分来更新,不必要等到最终结果出来,即不必等到一个episode结束,这是跟上一章介绍的Monte Carlo方法最大的区别 6.1 TD Prediction Monte Carlo方法必须要等到episode的结束,才能更新 V(St) V ( S t ) TD 方法则只需要等到下一个时间步,就可以做更新了 对一个every-visit Monte Carlo m
相关文章
相关标签/搜索