强化学习之时间差分方法

时间 2021-01-09

原文原文链接

TD 预测：TD(0) 虽然蒙特卡洛 (MC) 预测方法必须等到阶段结束时才能更新值函数估值，但是时间差分 (TD) 方法在每个时间步之后都会更新值函数。对于任何固定策略，一步 TD（或 TD(0)）保证会收敛于真状态值函数，只要步长参数 \alphaα 足够小。在实践中，TD 预测的收敛速度比 MC 预测得要快。 TD 预测：动作值 -（在此部分，我们讨论了估算动作值的 TD 预测算法。和