强化学习（五）：蒙特卡洛采样方法

时间 2020-07-20

标签强化学习蒙特卡洛采样方法繁體版

原文原文链接

强化学习（五）：蒙特卡洛采样方法在强化学习（四）中，咱们学习了如何使用动态规划法求解强化学习问题，咱们还学习了策略评估和策略改进，以及广义策略迭代（GPI），事实上，动态规划可以很好地收敛到最优值，可是否动态规划就是最好的呢？显然不是。html 回顾一下动态规划的状态价值函数的贝尔曼方程：web v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s

>>阅读原文<<