深度加强学习David Silver(五)——Model-Free Control

本节课主要内容:web On-Policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning On-Policy Monte-Carlo Control 上节课讲了model-free的预测,这节课讲优化控制。 回忆一下以前的内容,lecture03讲到对于给定模型的MDP,经过V(s)改进
相关文章
相关标签/搜索