AI学习笔记——求解最优MDP

时间 2021-01-11

原文原文链接

上一篇文章介绍了MDP的基本概念，但是我们更关心的是如何寻找到最佳的路径解决MDP问题。MDP过程中，可以有无数种策略(policy)，找到最佳的路径实际上就是找到最佳的Policy 来最大化V函数(Value Function)或者Q函数(Action-Value Function)。用数学表达式表达出来就是：其中加星号* 的v和q表示最优的v和q。还记得上一篇文章中的那个例子吗？学生学习