《Reinforcement Learning》读书笔记 6：时序差分学习（TD-Learning）

时间 2019-12-13

标签 reinforcement learning 读书笔记时序差分学习繁體版

原文原文链接

《Reinforcement Learning: An Introduction》读书笔记 - 目录先来看一个例子天天上班的路程，都是能够看做是一系列子过程的组合，如：走路去地铁站=>地铁1=>地铁2=>公交，总时长是这些子过程之和。天天咱们依赖以前的经验，估计当天的时长，并更新咱们的经验。那么如何作出更好的估计呢？如何更快地积累有效的经验？尤为是在一个没有适合model（回顾MDP中的

>>阅读原文<<

《Reinforcement Learning》 读书笔记 6：时序差分学习（TD-Learning）

《Reinforcement Learning》读书笔记 6：时序差分学习（TD-Learning）