强化学习基础总结（三）

时间 2021-01-08

原文原文链接

强化学习基础总结（三） @(Machine Learning) 覆盖以下几个主题： Markov过程 Markov奖励过程 Markov决策过程 MDPs扩展 MDP简介 MDP是用于正式描述强化学习模型中的环境(environment)。这里的环境是完全可观测的。几乎所有的RL问题都可以被定义为MDP模型。马尔可夫性如前面文章所说，马尔可夫性就是：给定现在，将来与过去无关。数学语言描述