策略迭代与值迭代的区别

时间 2021-01-05

原文原文链接

策略迭代与值迭代都属于强化学习里面策略求解中的动态规划方法。其区别是什么呢。首先看一张图片：首先看策略迭代：１.initialization 初始化所有状态的v(s)以及π(s)（初始化为随机策略） 2.poicy evaluation 用当前的v(s)对当前策略进行评估，计算出每一个状态的v(s)，直到v(s)收敛，才算训练好了这个状态价值函数V(s) 3.policy i