强化学习之无模型方法二:时间差分

时间差分方法(TD)是强化学习中最核心的也是最新奇的方法,混合了动态规划(DP)和蒙特卡洛方法(MC) 和MC类似,TD从历史经验中学习 和MDP类似,使用后继状态的值函数更新当前状态的值函数 TD属于无模型方法,未知P和R,同时应用了采样和贝尔曼方程,可以从不完整的片段中学习,通过估计来更新估计 时间差分评价 时间差分策略评价算法 目的:给定策略 π π ,求其对应的值函数 vπ v π 增量式
相关文章
相关标签/搜索