AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(2)

时间 2021-01-08

原文原文链接

求解最优MDP实际上就是找到最佳策略(Policy)π来最大化来最大化V函数(Value Function)。公式一 1. 策略估算(Policy Evaluation) 在MDP问题中，如何评估一个策略的好坏呢？那我们就计算这个策略的V函数（值函数），这里我们又要用到之前文章中提到的Bellman Equation了。公式二这个等式可以通过下一个状态的值函数来求得当前状态的值函数。如果我们

>>阅读原文<<