心得&复述知识体系:《强化学习》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

前言: 刚刚读完 Sutton 的《强化学习(第二版)》第5章:蒙特卡洛方法。为了巩固本章收获,笔者将在本文中用尽量简单直白的语言复述本章的思想,各个知识点之间的关系。同时,这方便笔者日后进行复习,也与他人分享了心得。 文章目录 各小节间结构关系 补充知识点与心得 [1] 重要度采样比心得 [2] 增量式实现更新公式简单推导 [3] 单状态MDP中,$\pi (\text{left} | s) =
相关文章
相关标签/搜索