强化学习基础总结(三)

强化学习基础总结(三) @(Machine Learning) 覆盖以下几个主题: Markov过程 Markov奖励过程 Markov决策过程 MDPs扩展 MDP简介 MDP是用于正式描述强化学习模型中的环境(environment)。 这里的环境是完全可观测的。 几乎所有的RL问题都可以被定义为MDP模型。 马尔可夫性 如前面文章所说,马尔可夫性就是:给定现在,将来与过去无关。 数学语言描述
相关文章
相关标签/搜索