深度增强学习David Silver（二）——马尔科夫决策过程MDP

时间 2020-12-29

原文原文链接

本节课分为四个部分： Markov Processes（MP） Markov Reward Processes（MRP） Markov Decision Processes（MDP） MDP扩展上节课在讲完全可观察环境的时候有提到MDP，几乎所有的增强学习问题都可以简化为MDP问题。那么MDP是什么呢？首先谈一下Markov的性质：“The future is independent of th