《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

时间 2021-01-12

标签强化学习繁體版

原文原文链接

此为《强化学习》第六章 Temporal-Difference Learning 。时序差分学习 (Temporal-Difference Learning, TD) 是强化学习的核心。TD学习是蒙特卡洛MC法和动态规划DP法的综合，它可以像MC那样，不需要知道环境的全部信息，通过交互就能学习；同时，它也可以像DP那样，在（其他值函数）估计的基础上进行估计，从而不需要求解完整个事件(Episod

>>阅读原文<<