MIT s069课程学习笔记 01 强化学习到深度强化学习

时间 2021-07-10

原文原文链接

强化学习到深度强化学习部分内容转载自知乎黄伟亮 https://zhuanlan.zhihu.com/p/35688924 强化学习的理论框架——马科夫决策过程（MDP）强化学习，本质上是让计算机学会自主决策的方法论。而马可夫决策过程（Markov decision process, MDP）则是强化学习中，对现实问题进行建模的数学模型，它把所有的现实问题都抽象为：智能体与环境的互动过程；

>>阅读原文<<