强化学习之n步自举法

上一篇:时序差分学习 n-step bootstrapping n 步自举法 1、n步时序差分预测 我们已经知道TD(0)和MC的回溯图分别是这样: 自然会联想到中间的一些情况有没有什么意义呢?比如下方的一些回溯图: 其实中间的这些过度情况就是n步时序差分方法,它的两种极端情况就是TD(0)和MC。还是按照原来的思路,先研究预测再考虑控制。想要弄清楚n步时序差分的预测是怎么实现的,可以从MC和TD
相关文章
相关标签/搜索