AI学习笔记——求解最优MDP

上一篇文章介绍了MDP的基本概念,但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中,可以有无数种策略(policy),找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。 用数学表达式表达出来就是: 其中加星号* 的v和q表示最优的v和q。 还记得上一篇文章中的那个例子吗?学生学习
相关文章
相关标签/搜索