强化学习 model free 蒙特卡洛增量 与 TD(0)

时序差分(TD)学习结合了蒙特卡洛方法和动态规划的方式: 对于蒙特卡洛方法,其迭代的方式是用episode中所有的样本结果作为更新的目标,如下所示,Gt代表的是时刻t真实的回报,他是有所有根据样本得到。 对于时序差分TD(0)则是用了其下一步状态的回报值作为 bootstrap 代替原样本的结果: 所以对于蒙特卡洛方式,TD(0)只是改变了一个地方,即用 下一状态得到的真实值 + 下一状态的估计值
相关文章
相关标签/搜索