David silver强化学习课程第二课马尔科夫决策过程

时间 2020-12-23

标签人工智能强化学习繁體版

原文原文链接

第二课马尔科夫决策过程本章主要讲解马尔科夫决策过程的基础知识，课程组提到几乎所有的强化学习问题都可以表示为马尔科夫决策过程。这里注意本章讲解的马尔科夫决策过程的环境是完全可观测的，一般强化学习问题的环境是部分可观测，所以也存在部分可观测的马尔科夫决策过程。 1 马尔科夫性当前的状态可以充分地表示未来信息（由当前状态就可以知道下一刻的状态转移概率和奖励），则称该状态满足马尔可夫性。在上一节课中

>>阅读原文<<

David silver强化学习课程第二课 马尔科夫决策过程

David silver强化学习课程第二课马尔科夫决策过程