深度增强学习David Silver(二)——马尔科夫决策过程MDP

本节课分为四个部分: Markov Processes(MP) Markov Reward Processes(MRP) Markov Decision Processes(MDP) MDP扩展 上节课在讲完全可观察环境的时候有提到MDP,几乎所有的增强学习问题都可以简化为MDP问题。那么MDP是什么呢?首先谈一下Markov的性质:“The future is independent of th
相关文章
相关标签/搜索