David silver强化学习课程第二课 马尔科夫决策过程

第二课 马尔科夫决策过程 本章主要讲解马尔科夫决策过程的基础知识,课程组提到几乎所有的强化学习问题都可以表示为马尔科夫决策过程。这里注意本章讲解的马尔科夫决策过程的环境是完全可观测的,一般强化学习问题的环境是部分可观测,所以也存在部分可观测的马尔科夫决策过程。 1 马尔科夫性 当前的状态可以充分地表示未来信息(由当前状态就可以知道下一刻的状态转移概率和奖励),则称该状态满足马尔可夫性。在上一节课中
相关文章
相关标签/搜索