强化学习系列(五):蒙特卡罗方法(Monte Carlo)

1、前言 在强化学习系列(四):动态规划中,咱们介绍了采用DP (动态规划)方法求解environment model 已知的MDP(马尔科夫决策过程),那么当environment model信息不全的时候,咱们会采用什么样的方法求解呢?蒙特卡洛方法(Monte Carlo)、时间差分(Temporal Difference,TD)、n-step Bootstrapping 均可以用来求解无模型
相关文章
相关标签/搜索