强化学习中同步动态规划和异步动态规划 Synchronous and Asynchronous dynamic programminging

同步动态规划是基础:web 一次性更新全部的S的value。异步 异步动态规划分集中常见类型: in-place 动态规划: 不对上一周期的value进行备份,直接使用这一周期的value(固然,本周期的value原本就是上一周期优化的结果,只是少了备份这一步,节省了一些内存)svg Prioritised Sweeping:优化 计算优化目标值和现实值之差,对多个S计算后排成一列,差值大的在前,
相关文章
相关标签/搜索