《Reinforcement Learning》读书笔记 6：时序差分学习（TD-Learning）

时间 2021-01-13

原文原文链接

《Reinforcement Learning: An Introduction》读书笔记 - 目录先来看一个例子每天上班的路程，都是可以看作是一系列子过程的组合，如：走路去地铁站=>地铁1=>地铁2=>公交，总时长是这些子过程之和。每天我们依赖之前的经验，估计当天的时长，并更新我们的经验。那么如何做出更好的估计呢？如何更快地积累有效的经验？尤其是在一个没有适合model（回顾MDP中的

>>阅读原文<<

《Reinforcement Learning》 读书笔记 6：时序差分学习（TD-Learning）

《Reinforcement Learning》读书笔记 6：时序差分学习（TD-Learning）