强化学习实例8：蒙特卡罗法（monte carlo）

时间 2019-12-04

标签强化学习实例 monte carlo 繁體版

原文原文链接

在不少实际问题中，咱们没法获得游戏的全貌，也就是说，状态转移矩阵没法获知，这被称为“无模型”问题。python Bellman公式，能够经过不断迭代获得状态-行动值函数算法而在无模型问题中，状态转移几率将没法知晓，因而用最初的累积回报求得app 看到等号右边的指望，咱们很天然地联想到了蒙特卡罗法，它是一种经过随机采样估计指望值的方法，全过程总结以下：dom （1）让Agent和环境交互后获得交互

>>阅读原文<<