《Reinforcement Learning》 读书笔记 6:时序差分学习(TD-Learning)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录 先来看一个例子 天天上班的路程,都是能够看做是一系列子过程的组合,如:走路去地铁站=>地铁1=>地铁2=>公交,总时长是这些子过程之和。天天咱们依赖以前的经验,估计当天的时长,并更新咱们的经验。 那么如何作出更好的估计呢?如何更快地积累有效的经验? 尤为是在一个没有适合model(回顾MDP中的
相关文章
相关标签/搜索