强化学习 model free 蒙特卡洛增量与 TD(0)

时间 2021-01-13

标签机器学习繁體版

原文原文链接

时序差分（TD）学习结合了蒙特卡洛方法和动态规划的方式：对于蒙特卡洛方法，其迭代的方式是用episode中所有的样本结果作为更新的目标，如下所示，Gt代表的是时刻t真实的回报，他是有所有根据样本得到。对于时序差分TD(0)则是用了其下一步状态的回报值作为 bootstrap 代替原样本的结果：所以对于蒙特卡洛方式，TD(0)只是改变了一个地方，即用下一状态得到的真实值 + 下一状态的估计值

>>阅读原文<<

强化学习 model free 蒙特卡洛增量 与 TD(0)

强化学习 model free 蒙特卡洛增量与 TD(0)