马尔科夫决策过程

时间 2021-01-11

原文原文链接

在强化学习中，马尔科夫决策过程（Markov decision process, MDP）是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。马尔科夫过程 Markov Process 马尔科夫性 Markov Property 某一状态信息包含了所有相关的历史，只要当前状态可知