Reinforcement Learning - An Introduction强化学习读书笔记 Ch5.3-Ch5.7

时间 2021-01-13

原文原文链接

5.3蒙特卡洛控制采用蒙特卡洛解决控制问题，采用类似于DP算法中广义策略迭代的方式。在策略迭代中，同时维护近似的策略和近似的价值函数，通过不断迭代逼近真实的价值函数，并且根据价值函数调优策略。策略评估：采用与DP中完全相同的方法，只要每个状态动作都被经历了无数次，MC即可以收敛。策略改进：采用贪心算法，每次选择当前状态下最大的动作价值函数。可证明根据贪心法，总能每步都得到更优的策略，且最

>>阅读原文<<