时序差分学习(Temporal-Difference Learning)

时间 2019-12-09

标签时序差分学习 temporal difference learning 繁體版

原文原文链接

时序差分学习(Temporal-Difference Learning)结合了动态规划和蒙特卡洛方法，是强化学习的核心思想。算法蒙特卡洛的方法是模拟（或者经历）一段序列，在序列结束后，根据序列上各个状态的价值，来估计状态价值。时序差分学习是模拟（或者经历）一段序列，每行动一步（或者几步），根据新状态的价值，而后估计执行前的状态价值。能够认为蒙特卡洛的方法是最大步数的时序差分学习。数据结构

>>阅读原文<<