【强化学习】时间差分法(TD)

引用 知乎专栏 天津包子馅儿的知乎html 一、前言 以前的强化学习分类中介绍了几种强化学习方法的分类,今天就说一下其中重要的算法思想时间差分法,TD与蒙特卡罗法主要是在值函数的更新上有所差别,咱们能够先看下图 web 动态规划法: 须要一个彻底已知的环境,须要状态之间的转换几率,而且V(S)状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其余状态值函数,
相关文章
相关标签/搜索