强化学习 4 —— 时序差分法（TD）的解决无模型的预测与控制（SARSA and Q-Learning）

时间 2021-01-13

标签强化学习繁體版

原文原文链接

强化学习 4 —— Model Free TD 在上篇文章强化学习 3 ——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题，主要介绍了蒙特卡洛（MC）采样法的预测与控制问题，这次我们介绍另外一种方法——时序差分法（TD）一、时序差分采样法（TD）对于MC采样法，如果我们没有完整的状态序列，那么就无法使用蒙特卡罗法求解了。当获取不到完整状态序列时，

>>阅读原文<<