《Reinforcement Learning》 读书笔记 6:时序差分学习(TD-Learning)

《Reinforcement Learning: An Introduction》 读书笔记 - 目录 先来看一个例子 每天上班的路程,都是可以看作是一系列子过程的组合,如:走路去地铁站=>地铁1=>地铁2=>公交,总时长是这些子过程之和。每天我们依赖之前的经验,估计当天的时长,并更新我们的经验。 那么如何做出更好的估计呢?如何更快地积累有效的经验? 尤其是在一个没有适合model(回顾MDP中的
相关文章
相关标签/搜索