Reinforcement Learning——MDP

几乎所有的增强学习的问题都可以通过一些方式形式化为Markov Decision Process,David主讲的关于MDP的这部分内容主要阐述了MP、MRP、MDP三种过程的value函数计算及Bellman 方程的迭代过程。 一、Markov Process MP是指一系列具有Markov Property的动态过程。 Markov Property: 即下一时刻的状态仅取决于此刻的状态,大大
相关文章
相关标签/搜索