机器学习(二十九)——Temporal-Difference Learning

https://antkillerfarm.github.io/ Temporal-Difference Learning(续) TD vs. MC—3 再来看如下示例: 已现有两个状态(A和B),MDP未知,衰减系数为1,有如下表所示8个完整Episode的经验及对应的即时奖励,其中除了第1个Episode有状态转移外,其余7个均只有一个状态。 Episode 状态转移及奖励 1 A:0,B:0
相关文章
相关标签/搜索