时序差分学习(Temporal-Difference Learning)

时序差分学习(Temporal-Difference Learning)结合了动态规划和蒙特卡洛方法,是强化学习的核心思想。算法 蒙特卡洛的方法是模拟(或者经历)一段序列,在序列结束后,根据序列上各个状态的价值,来估计状态价值。  时序差分学习是模拟(或者经历)一段序列,每行动一步(或者几步),根据新状态的价值,而后估计执行前的状态价值。  能够认为蒙特卡洛的方法是最大步数的时序差分学习。数据结构
相关文章
相关标签/搜索