强化学习之蒙特卡洛方法

时间 2021-01-13

标签机器学习强化学习算法人工智能繁體版

原文原文链接

（1）蒙特卡洛方法是一类广泛的计算方法，依赖于重复随机抽样来获得数值结果。即基于大数定理的一种数学方法。（2）用蒙特卡洛方法的时候如果sample出的状态出现循环，导致永远无法停止该怎么处理？可以根据具体任务和环境检测重复出现的状态进行”剪枝“等处理。（3）蒙特卡洛方法适用环境？在强化学习问题中，我们可以用马尔可夫决策过程（MDP）和相关算法找出最优行动值函数，它通过策略迭代和值迭代找出最

>>阅读原文<<

强化学习 之 蒙特卡洛方法

强化学习之蒙特卡洛方法