MIT s069课程学习笔记 01 强化学习到深度强化学习

强化学习到深度强化学习 部分内容转载自知乎黄伟亮 https://zhuanlan.zhihu.com/p/35688924 强化学习的理论框架——马科夫决策过程(MDP) 强化学习,本质上是让计算机学会自主决策的方法论。而马可夫决策过程(Markov decision process, MDP)则是强化学习中,对现实问题进行建模的数学模型,它把所有的现实问题都抽象为: 智能体与环境的互动过程;
相关文章
相关标签/搜索