强化学习导论 | 第七章 n步时序差分算法

时间 2020-12-30

原文原文链接

前面讲到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根据采样到的经验轨迹实际得到的奖励来更新轨迹中出现的状态的价值，即在每个轨迹结束之后更新。TD(0)方法中某个状态的价值是根据从当前状态走一步的即时奖励和后续状态的估计价值相加得来的，即在执行一个动作之后就更新价值。那么，能否将MC和TD(0)结合呢？基于这个想法，就产生了n步时序差分算法。即在某个状态的价值等于在当前状态下走n步得到的奖

>>阅读原文<<