强化学习(五):蒙特卡洛采样方法

强化学习(五):蒙特卡洛采样方法   在强化学习(四)中,咱们学习了如何使用动态规划法求解强化学习问题,咱们还学习了策略评估和策略改进,以及广义策略迭代(GPI),事实上,动态规划可以很好地收敛到最优值,可是否动态规划就是最好的呢?显然不是。html 回顾一下动态规划的状态价值函数的贝尔曼方程:web v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s
相关文章
相关标签/搜索