强化学习 4 —— 时序差分法(TD)的解决无模型的预测与控制(SARSA and Q-Learning)

强化学习 4 —— Model Free TD 在上篇文章强化学习 3 ——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题,主要介绍了蒙特卡洛(MC)采样法的预测与控制问题,这次我们介绍另外一种方法——时序差分法(TD) 一、时序差分采样法(TD) 对于MC采样法,如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。当获取不到完整状态序列时,
相关文章
相关标签/搜索