强化学习 之 动态规划

(1)价值迭代的同步更新和异步更新在收敛速度和效果上有什么区别? 异步更新的收敛一般收敛得快一些。但是如果没有达到收敛,异步更新得到的部分状态的价值可能和ground truth差距较大,不敢直接用来构建policy。原因是异步更新可能使得部分状态更新得不如别的状态快。 (2)在价值迭代中,因为gamma这个01之间衰减率的存在,算法可以收敛。那么在策略迭代中,有没有方法证明其一定可以收敛? 有的
相关文章
相关标签/搜索