AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(2)

求解最优MDP实际上就是找到最佳策略(Policy)π来最大化来最大化V函数(Value Function)。 公式一 1. 策略估算(Policy Evaluation) 在MDP问题中,如何评估一个策略的好坏呢?那我们就计算这个策略的V函数(值函数),这里我们又要用到之前文章中提到的Bellman Equation了。 公式二 这个等式可以通过下一个状态的值函数来求得当前状态的值函数。如果我们
相关文章
相关标签/搜索