Temporal Difference - 时序差分学习

这篇博客是前面一篇博客Model-Free Policy Evaluation 无模型策略评估的一个小节,因为TD本身也是一种无模型策略评估方法。原博文有对无模型策略评估方法的详细概述。 Temporal Difference(TD) 时序差分 “if one had to identify one idea as central and novel to reinforcement learni
相关文章
相关标签/搜索