RL(六)时序差分法(TD)

目录 1、时序差分概述 2、TD和蒙特卡罗算法的不同 3、TD(λ) 4、时序差分的控制问题求解 5、总结 1、时序差分概述 前面我们讲了基于模型的动态规划和不基于模型的蒙特卡罗算法,他们都有各自的优点和缺点。动态规划能够很好的基于模型来求解强化学习,但是现实问题中很少能提前知道这个模型;蒙特卡罗算法能够一定程度上结局无模型的强化学习任务,但是它必须在拥有完整的序列的前提下才能得到好的效果,这在现
相关文章
相关标签/搜索