DQN发展历程(一)htm
DQN发展历程(二)blog
DQN发展历程(三)get
DQN发展历程(四)it
DQN发展历程(五)class
不基于模型(Model-free)的预测
蒙特卡罗方法

时序差分方法
- 蒙特卡罗方法须要得到从开始到终结的一条完整的状态序列,以求解每一个状态的值,时序差分方法则不须要。根据贝尔曼不等式,只须要从当前状态到下一状态求解。
- 时序差分方法每步都更新状态值,而蒙特卡罗方法须要等到全部状态结束才更新。

- 蒙特卡罗方法使用最后的目标来求解状态值,而时序差分使用下一状态的估计在每一步调整状态值。
- 蒙特卡罗方法是无偏估计方差较大,时序差分则是有篇估计但估计方差小。
多步的时序差分方法
- 时序差分方法使用当前状态值和下一状态值更新当前状态值,若是使用当前状态值和以后多步的状态值更新当前状态值,就是多步的时序差分方法。
- 当步数到最后的终结状态时,即是蒙特卡罗方法。
- 当步数到下一状态时,即是时序差分方法。
- 多步的时序差分方法,分为前向和后向的时序差分方法。
参考
david siver 课程model
https://home.cnblogs.com/u/pinard/方法