强化学习系列(七):n-step Bootstrapping (步步为营)

一、前言 在强化学习系列(五):蒙特卡罗方法(Monte Carlo)和强化学习系列(六):时间差分算法(Temporal-Difference Learning)中,我们介绍了两种用于求解环境模型未知的MDP方法:MC和TD,MC是一种每episode更新一次的方法,TD是单步更新的方法,n-step Bootstrapping (步步为营)是一种介于TD和MC之间的方法,n-step更新一次。
相关文章
相关标签/搜索