【强化学习】第三章：有限马尔可夫决策过程

时间 2021-01-13

标签强化学习人工智能繁體版

原文原文链接

3.1 “智能体-环境”交互接口下面先介绍一些基本的MDP概念。智能体（agent）：用来学习并作决定的一个机器。可以是一个自动行走的机器人；可以是下围棋的阿法尔狗；也可以是一台自动驾驶的汽车。环境（environment）：智能体以外并且与智能体有交互的任何东西都可以称之为环境。状态（state）：所有可以用的信息（一般都是智能体所观测到的环境的信息），智能体可以用来决定下一步反应以实现

>>阅读原文<<