David Silver《Reinforcement Learning》课程解读—— Lecture 5: Model-Free Control

David Silver《Reinforcement Learning》课程解读—— Lecture 5: Model-Free Control 上次课谈到了在给定policy的情况下求解未知environment的MDP问题,称之为Model-Free Prediction问题。本节则是解决未知policy情况下未知environment的MDP问题,也就是Model-Free Control问
相关文章
相关标签/搜索