Reinforcement Learning - An Introduction强化学习读书笔记 Ch5.3-Ch5.7

5.3蒙特卡洛控制 采用蒙特卡洛解决控制问题,采用类似于DP算法中广义策略迭代的方式。 在策略迭代中,同时维护近似的策略和近似的价值函数,通过不断迭代逼近真实的价值函数,并且根据价值函数调优策略。 策略评估:采用与DP中完全相同的方法,只要每个状态动作都被经历了无数次,MC即可以收敛。 策略改进:采用贪心算法,每次选择当前状态下最大的动作价值函数。 可证明根据贪心法,总能每步都得到更优的策略,且最
相关文章
相关标签/搜索