心得&复述知识体系：《强化学习》中的蒙特卡洛方法 Monte Carlo Methods in Reinforcement Learning

时间 2020-12-24

标签 Reinforcement Learning 数学证明人工智能强化学习自动控制概率论动态规划栏目应用数学繁體版

原文原文链接

前言：刚刚读完 Sutton 的《强化学习（第二版）》第5章：蒙特卡洛方法。为了巩固本章收获，笔者将在本文中用尽量简单直白的语言复述本章的思想，各个知识点之间的关系。同时，这方便笔者日后进行复习，也与他人分享了心得。文章目录各小节间结构关系补充知识点与心得 [1] 重要度采样比心得 [2] 增量式实现更新公式简单推导 [3] 单状态MDP中，$\pi (\text{left} | s) =

>>阅读原文<<