蒙特卡洛方法

什么时候使用蒙特卡洛方法:  蒙特卡洛方法适用于免模型的强化学习任务。(“免模型学习”对应于一类现实的强化  学习任务,在该类任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态,因此,在该类学习任务中,学习算法不依赖于环境建模。)  为什么使用蒙特卡洛方法:  在免模型情形下,由于模型未知而导致无法做全概率展开,策略迭代酸中的策略无法评估,此时,只能通过在环境中执行选择
相关文章
相关标签/搜索