强化学习(三):有限马尔可夫决策与贝尔曼方程

强化学习(三):有限马尔可夫决策与贝尔曼方程 夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn 1、有限马尔可夫决策过程   有限马尔可夫决策过程(MDP)是强化学习的主要思想,也是后续多个解决强化学习目标的基本假设。   我们先来回顾一下强化学习的学习过程。强化学习的主体是智能体,与之相互交互的事物称为环境。当 t t t时刻智能体所处某一个状
相关文章
相关标签/搜索