【强化学习】时间差分法(TD)

时间 2019-12-10

标签强化学习时间差分法繁體版

原文原文链接

引用知乎专栏天津包子馅儿的知乎html 一、前言以前的强化学习分类中介绍了几种强化学习方法的分类，今天就说一下其中重要的算法思想时间差分法，TD与蒙特卡罗法主要是在值函数的更新上有所差别，咱们能够先看下图 web 动态规划法：须要一个彻底已知的环境，须要状态之间的转换几率，而且V(S)状态值函数的估计是自举的(bootstrapping)，即当前状态值函数的更新依赖于已知的其余状态值函数，

>>阅读原文<<