强化学习之时间差分方法

TD 预测:TD(0) 虽然蒙特卡洛 (MC) 预测方法必须等到阶段结束时才能更新值函数估值,但是时间差分 (TD) 方法在每个时间步之后都会更新值函数。 对于任何固定策略,一步 TD(或 TD(0))保证会收敛于真状态值函数,只要步长参数 \alphaα 足够小。 在实践中,TD 预测的收敛速度比 MC 预测得要快。 TD 预测:动作值 -(在此部分,我们讨论了估算动作值的 TD 预测算法。和
相关文章
相关标签/搜索