机器学习（二十九）——Temporal-Difference Learning

时间 2021-01-05

原文原文链接

https://antkillerfarm.github.io/ Temporal-Difference Learning（续） TD vs. MC—3 再来看如下示例：已现有两个状态(A和B)，MDP未知，衰减系数为1，有如下表所示8个完整Episode的经验及对应的即时奖励，其中除了第1个Episode有状态转移外，其余7个均只有一个状态。 Episode 状态转移及奖励 1 A:0,B:0