[Reinforcement Learning] Model-Free Prediction

时间 2021-01-11

原文原文链接

[Reinforcement Learning] Model-Free Prediction 蒙特卡洛学习蒙特卡洛方法（Monte-Carlo Methods，简称MC）也叫做蒙特卡洛模拟，是指使用随机数（或更常见的伪随机数）来解决很多计算问题的方法。其实本质就是，通过尽可能随机的行为产生后验，然后通过后验来表征目标系统。在Model-Free的情况下，MC在强化学习中的应用就是获取价值函数，