二、MDP问题

MDP问题 文章目录 MDP问题 马尔科夫性与马尔科夫奖励 贝尔曼方程 MDP policy 简单回忆一下上一篇笔记 一、强化学习基础 中讲到的agent与environment交互的过程:当环境environment处于某个状态state时,智能体agent采取某个动作action,该动作会对environment产生影响,使environment进入下一个状态state’,并且在状态改变的时刻
相关文章
相关标签/搜索