【强化学习】时间差分法(TD)

时间 2020-12-30

标签时间差分法繁體版

原文原文链接

引用知乎专栏天津包子馅儿的知乎 1、前言之前的强化学习分类中介绍了几种强化学习方法的分类，今天就说一下其中重要的算法思想时间差分法，TD与蒙特卡罗法主要是在值函数的更新上有所差异，我们可以先看下图动态规划法：需要一个完全已知的环境，需要状态之间的转换概率，并且V(S)状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其他状态值函数，也就是使用bel

>>阅读原文<<