深度增强学习David Silver（四）——Model-Free Prediction

时间 2020-12-31

原文原文链接

本节课主要介绍： Monte-Carlo Learning Temporal-Difference Learning TD(λ) Lecture03讲到了已知环境的MDP，也就是做出行动之后知道到达哪个状态及奖励，但是现实中大部分情况下状态和奖励是未知的，这种情况称为model-free，即环境模型未知。本节课探讨prediction，估计未知环境的MDP的价值函数，下节课讲control。 Mo