强化学习之动态规划

时间 2021-07-14

标签机器学习强化学习算法人工智能繁體版

原文原文链接

（1）价值迭代的同步更新和异步更新在收敛速度和效果上有什么区别？异步更新的收敛一般收敛得快一些。但是如果没有达到收敛，异步更新得到的部分状态的价值可能和ground truth差距较大，不敢直接用来构建policy。原因是异步更新可能使得部分状态更新得不如别的状态快。（2）在价值迭代中，因为gamma这个01之间衰减率的存在，算法可以收敛。那么在策略迭代中，有没有方法证明其一定可以收敛？有的

>>阅读原文<<

强化学习 之 动态规划

强化学习之动态规划