加强学习Reinforcement Learning经典算法梳理3:TD方法

1 前言 在上一篇blog中,咱们分析了蒙特卡洛方法,这个方法的一个特色就是须要运行完整个episode从而得到准确的result。可是每每不少场景下要运行完整个episode是很费时间的,所以,能不能仍是沿着bellman方程的路子,估计一下result呢?而且,注意这里,依然model free。那么什么方法能够作到呢?就是TD(temporal-difference时间差分)方法。html
相关文章
相关标签/搜索