加强学习Reinforcement Learning经典算法梳理3：TD方法

时间 2019-12-06

标签加强学习 reinforcement learning 经典算法梳理方法繁體版

原文原文链接

1 前言在上一篇blog中，咱们分析了蒙特卡洛方法，这个方法的一个特色就是须要运行完整个episode从而得到准确的result。可是每每不少场景下要运行完整个episode是很费时间的，所以，能不能仍是沿着bellman方程的路子，估计一下result呢？而且，注意这里，依然model free。那么什么方法能够作到呢？就是TD（temporal-difference时间差分）方法。html

>>阅读原文<<