强化学习之Q-Learing基础

时间 2021-01-12

原文原文链接

强化学习之Q-Learing基础文章目录强化学习之Q-Learing基础马尔可夫决策过程MDP 1)部分可观察马尔可夫决策过程POMDPs 2）Markov Games：总结强化学习之Q-Learning 马尔可夫决策过程MDP MDP 是一个离散时间随机控制过程。MDP提供了用于建模决策问题的数学框架，在该决策中，结果是部分随机的，并且受决策者或代理商的控制。MDP对于研究可以通过动态

>>阅读原文<<