强化学习——蒙特卡洛方法

学习目标 理解Prediction和Control的差别; 理解什么是first-visit和every-visit; 理解什么是on-policy和off-policy; 理解蒙特卡洛方法的Prediction和Control问题; Prediction和Control 其实这两个名词在总结动态规划方法的文章中也提到过了,但是没有细说,这里再简单的说明一下。预测(Prediction)和控制(C
相关文章
相关标签/搜索