强化学习之时序差分学习

时间 2021-01-13

标签算法强化学习机器学习人工智能繁體版

原文原文链接

（1）时序差分学习结合了动态规划与蒙特卡洛方法的思想动态规划是这样迭代的，需要了解环境的dynamic才能求均值：蒙特卡洛是这样增量式迭代的，只需要经验片段就可以：而TD是这样迭代的：（2）TD算法的V(S)的具体估计方法：直接用经验片段来估计。最开始对每一个状态的价值V进行初始化(可以是随机初始化)。随后在环境中交互，每一次和环境交互得到的四元组都可以用这个式子来更新之前对当前

>>阅读原文<<

强化学习 之 时序差分学习

强化学习之时序差分学习