强化学习实例8:蒙特卡罗法(monte carlo)

在不少实际问题中,咱们没法获得游戏的全貌,也就是说,状态转移矩阵没法获知,这被称为“无模型”问题。python Bellman公式,能够经过不断迭代获得状态-行动值函数算法 而在无模型问题中,状态转移几率将没法知晓,因而用最初的累积回报求得app 看到等号右边的指望,咱们很天然地联想到了蒙特卡罗法,它是一种经过随机采样估计指望值的方法,全过程总结以下:dom (1)让Agent和环境交互后获得交互
相关文章
相关标签/搜索