《强化学习Sutton》读书笔记(五)——时序差分学习(Temporal-Difference Learning)

此为《强化学习》第六章 Temporal-Difference Learning 。 时序差分学习 (Temporal-Difference Learning, TD) 是强化学习的核心。TD学习是蒙特卡洛MC法和动态规划DP法的综合,它可以像MC那样,不需要知道环境的全部信息,通过交互就能学习;同时,它也可以像DP那样,在(其他值函数)估计的基础上进行估计,从而不需要求解完整个事件(Episod
相关文章
相关标签/搜索