如何求强化学习最优解

在一篇文章强化学习与马尔可夫决策中,介绍了使用马尔可夫决策过程对强化学习的过程进行建模。通过建模可以得出,只要求解最优价值函数,即可得到对应的最优策略。那么如何求解最优价值函数呢?本篇文章将介绍一些最优价值函数的求解算法。 predict和control 首先介绍一下强化学习的两个基本问题,预测和控制。 predict 在已知状态集 ,动作集 ,模型状态转化概率矩阵 ,即时奖励 ,衰减因子 的条件
相关文章
相关标签/搜索