如何求强化学习最优解

时间 2021-01-19

原文原文链接

在一篇文章强化学习与马尔可夫决策中，介绍了使用马尔可夫决策过程对强化学习的过程进行建模。通过建模可以得出，只要求解最优价值函数，即可得到对应的最优策略。那么如何求解最优价值函数呢？本篇文章将介绍一些最优价值函数的求解算法。 predict和control 首先介绍一下强化学习的两个基本问题，预测和控制。 predict 在已知状态集，动作集，模型状态转化概率矩阵，即时奖励，衰减因子的条件

>>阅读原文<<