强化学习之无模型方法二：时间差分

时间 2021-01-13

原文原文链接

时间差分方法(TD)是强化学习中最核心的也是最新奇的方法，混合了动态规划(DP)和蒙特卡洛方法(MC) 和MC类似，TD从历史经验中学习和MDP类似，使用后继状态的值函数更新当前状态的值函数 TD属于无模型方法，未知P和R，同时应用了采样和贝尔曼方程，可以从不完整的片段中学习，通过估计来更新估计时间差分评价时间差分策略评价算法目的：给定策略 π π ，求其对应的值函数 vπ v π 增量式

>>阅读原文<<