马尔可夫决策过程（Markov Decision Process, MDP）

时间 2020-12-30

原文原文链接

马尔可夫决策过程（Markov Decision Processes,MDPs） MDPs 简单说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）获得奖励（Reward）与环境（Environment）发生交互的循环过程。绝大多数的增强学习都可以模型化为MDP的问题。MDP 的策略完全取决于当前状态，这也是它马尔可夫性质的体现，根据当前的状态来决定动作。元组表示