强化学习之Q-Learing基础

强化学习之Q-Learing基础 文章目录 强化学习之Q-Learing基础 马尔可夫决策过程MDP 1)部分可观察马尔可夫决策过程POMDPs 2)Markov Games: 总结 强化学习之Q-Learning 马尔可夫决策过程MDP MDP 是一个离散时间随机控制过程。MDP提供了用于建模决策问题的数学框架,在该决策中,结果是部分随机的,并且受决策者或代理商的控制。MDP对于研究可以通过动态
相关文章
相关标签/搜索