Reinforcement Learning强化学习系列之四:时序差分TD

引言 前面一篇讲的是蒙特卡洛的强化学习方法,蒙特卡罗强化学习算法经过考虑采样轨迹,克服了模型未知给策略估计形成的困难,不过蒙特卡罗方法有一个缺点,就是每次须要采样完一个轨迹以后才能更新策略。蒙特卡洛方法没有充分利用学习任务的MDP结构,而时序差分学习方法Temporal Difference(TD)就充分利用了MDP结构,效率比MC要高,这篇文章介绍一下TD算法python Sarsa算法 Sar
相关文章
相关标签/搜索