深度增强学习David Silver(四)——Model-Free Prediction

本节课主要介绍: Monte-Carlo Learning Temporal-Difference Learning TD(λ) Lecture03讲到了已知环境的MDP,也就是做出行动之后知道到达哪个状态及奖励,但是现实中大部分情况下状态和奖励是未知的,这种情况称为model-free,即环境模型未知。本节课探讨prediction,估计未知环境的MDP的价值函数,下节课讲control。 Mo
相关文章
相关标签/搜索