[Reinforcement Learning] Model-Free Prediction

[Reinforcement Learning] Model-Free Prediction 蒙特卡洛学习 蒙特卡洛方法(Monte-Carlo Methods,简称MC)也叫做蒙特卡洛模拟,是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。其实本质就是,通过尽可能随机的行为产生后验,然后通过后验来表征目标系统。 在Model-Free的情况下,MC在强化学习中的应用就是获取价值函数,
相关文章
相关标签/搜索