强化学习 之 时序差分学习

(1)时序差分学习结合了动态规划与蒙特卡洛方法的思想 动态规划是这样迭代的,需要了解环境的dynamic才能求均值: 蒙特卡洛是这样增量式迭代的,只需要经验片段就可以: 而TD是这样迭代的: (2)TD算法的V(S)的具体估计方法 : 直接用经验片段来估计。 最开始对每一个状态的价值V进行初始化(可以是随机初始化)。随后在环境中交互,每一次和环境交互得到的四元组 都可以用这个式子 来更新之前对当前
相关文章
相关标签/搜索