强化学习之n步自举法

时间 2021-01-22

原文原文链接

上一篇：时序差分学习 n-step bootstrapping n 步自举法 1、n步时序差分预测我们已经知道TD(0)和MC的回溯图分别是这样：自然会联想到中间的一些情况有没有什么意义呢？比如下方的一些回溯图：其实中间的这些过度情况就是n步时序差分方法，它的两种极端情况就是TD(0)和MC。还是按照原来的思路，先研究预测再考虑控制。想要弄清楚n步时序差分的预测是怎么实现的，可以从MC和TD