马尔可夫决策过程

本文转自:http://www.52caml.com/reinforcement-learning/chapter3-markov-decision-process/ 1. 智能体与环境 强化学习问题不一样于传统机器学习问题,它是一种在交互的过程当中学习并实现目标的问题。这里把具备学习能力和决策能力的程序或系统称之为Agent(代理,智能体);与之交互的对象统称为环境(Environment)。交
相关文章
相关标签/搜索