马尔科夫决策过程

在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。几乎所有的强化学习问题都可以转化为MDP。本讲是理解强化学习问题的理论基础。   马尔科夫过程 Markov Process   马尔科夫性 Markov Property 某一状态信息包含了所有相关的历史,只要当前状态可知
相关文章
相关标签/搜索