增强学习（二）——策略迭代与值迭代

时间 2021-01-12

原文原文链接

在上一篇文章中，我主要介绍了马尔可夫决策过程（MDP）。在了解了增强学习的基本思想后，我们便可以继续讨论“最优策略”的求解方法：我们之前已经说到了MDP可以表示成一个元组（X, A, Psa, R），我们对最优策略的求解方法自然也就与这个元组密切相关：如果该过程的四元组均为已知，我们称这样的模型为“模型已知”，对这种已知所有环境因素的学习称为“有模型学习”（model-basedlearning

>>阅读原文<<