【强化学习】第三章:有限马尔可夫决策过程

3.1 “智能体-环境”交互接口 下面先介绍一些基本的MDP概念。 智能体(agent):用来学习并作决定的一个机器。可以是一个自动行走的机器人;可以是下围棋的阿法尔狗;也可以是一台自动驾驶的汽车。 环境(environment):智能体以外并且与智能体有交互的任何东西都可以称之为环境。 状态(state):所有可以用的信息(一般都是智能体所观测到的环境的信息),智能体可以用来决定下一步反应以实现
相关文章
相关标签/搜索