Reinforcement Learning——MDP

时间 2020-12-24

原文原文链接

几乎所有的增强学习的问题都可以通过一些方式形式化为Markov Decision Process，David主讲的关于MDP的这部分内容主要阐述了MP、MRP、MDP三种过程的value函数计算及Bellman 方程的迭代过程。一、Markov Process MP是指一系列具有Markov Property的动态过程。 Markov Property：即下一时刻的状态仅取决于此刻的状态，大大