策略迭代与值迭代的区别

策略迭代与值迭代都属于强化学习里面策略求解中的动态规划方法。其区别是什么呢。 首先看一张图片:  首先看策略迭代:    1.initialization  初始化所有状态的v(s)以及π(s)(初始化为随机策略)  2.poicy evaluation  用当前的v(s)对当前策略进行评估,计算出每一个状态的v(s),直到v(s)收敛,才算训练好了这个状态价值函数V(s)  3.policy i
相关文章
相关标签/搜索