Chapter 6 Temporal-Difference Learning

时间 2021-01-13

原文原文链接

TD可以根据episode的一部分来更新，不必要等到最终结果出来，即不必等到一个episode结束，这是跟上一章介绍的Monte Carlo方法最大的区别 6.1 TD Prediction Monte Carlo方法必须要等到episode的结束，才能更新 V(St) V ( S t ) TD 方法则只需要等到下一个时间步，就可以做更新了对一个every-visit Monte Carlo m