David Silver 强化学习Lecture4：Model-Free Prediction

时间 2021-01-12

原文原文链接

David Silver强化学习系列博客的内容整理自David Silver 强化学习的PPT和知乎叶强强化学习专栏。 1 Introduction 前三节笔记中，通过动态规划能够解决环境已知的MDP问题，也就是已知 <S,A,P,R,γ> < S , A , P , R , γ > ，已知environment即已知转移矩阵 P P 与reward函数 R R 。但是很多问题中e