Reinforcement Learning强化学习系列之四：时序差分TD

时间 2019-12-09

标签 reinforcement learning 强化学习系列之四时序差分繁體版

原文原文链接

引言前面一篇讲的是蒙特卡洛的强化学习方法，蒙特卡罗强化学习算法经过考虑采样轨迹，克服了模型未知给策略估计形成的困难，不过蒙特卡罗方法有一个缺点，就是每次须要采样完一个轨迹以后才能更新策略。蒙特卡洛方法没有充分利用学习任务的MDP结构，而时序差分学习方法Temporal Difference（TD）就充分利用了MDP结构，效率比MC要高，这篇文章介绍一下TD算法python Sarsa算法 Sar

>>阅读原文<<