强化学习（三）：有限马尔可夫决策与贝尔曼方程

时间 2021-01-06

原文原文链接

强化学习（三）：有限马尔可夫决策与贝尔曼方程夏栀的博客——王嘉宁的个人网站正式上线，欢迎访问和关注：http://www.wjn1996.cn 1、有限马尔可夫决策过程有限马尔可夫决策过程（MDP）是强化学习的主要思想，也是后续多个解决强化学习目标的基本假设。我们先来回顾一下强化学习的学习过程。强化学习的主体是智能体，与之相互交互的事物称为环境。当 t t t时刻智能体所处某一个状

>>阅读原文<<