强化学习概述

文章目录 1 前言 2 正文 1.1 强化学习定义 1.2 马尔可夫决策过程 1.3 强化学习的目标函数 1.3.1 总回报 1.3.1 目标函数 1.4 值函数 1.4.1 状态值函数 1.4.2 状态-动作值函数 14.3 值函数的作用 1.5 强化学习的分类 1.5.1 按任务分类 1.5.2按算法分类 3 总结 1 前言 监督学习可用于回归,分类等任务,这一般都需要一定数量的带标签的数据。
相关文章
相关标签/搜索