时序差分学习

第六章 时序差分学习 若是非要说一个强化学习中最核心而且新奇的方法,那么时序差分学习毫无疑问就是那种方法。TD方法是蒙特卡洛方法和动态规划思想的结合。因此TD方法有两个特色:一是能够直接从经验中学习,不须要环境模型;二是TD方法根据其余的估计来更新估计,也就是自举。时序差分学习,蒙特卡洛方法和动态规划三者之间关系的比较是强化学习中贯穿始终的主题。算法 6.1 TD预测 (1)Constant-α
相关文章
相关标签/搜索