强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS

强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS   在基于表格型强化学习方法中,比较常见的方法有动态规划法、蒙特卡洛法,时序差分法,多步引导法等。其中动态规划法是一种基于模型的方法(Model-based),因为它的前提是必须要知道所有状态和动作以及奖励的分布;后面的几种方法则是基于采样的方法,试图让智能体通过与环境交互来获得经验,从经验中推出相关的策略。因此本节对相关内容进行一个简单的总结
相关文章
相关标签/搜索