周志华 机器学习 Day30

有模型学习

模型已知:机器已对环境进行了建模,能在机器内部模拟出与环境相同或近似的状况。在已知模型的环境中的学习称为“有模型学习”。

1、策略评估

在模型已知时,对任意策略π能估计出该策略带来的期望累积奖赏,令函数表示从状态x出发,使用策略π所带来的累积奖赏;函数表示从状态x出发,执行动作α后再使用策略π带来的累积奖赏。这里的称为“状态值函数”,称为“状态-动作值函数”,分别表示指定“状态”上以及指定“状态-动作”上的累积奖赏。

2、策略改进

对某个策略的累积奖赏进行评估后,若发现它并非最优策略,则当然希望对其进行改进。理想的策略应能最大化累积奖赏

3、策略迭代与值迭代

将评估一个策略的值函数,以及策略评估后改进获得最优策略结合起来即可得到求解最优解的方法:从一个初始策略(通常是随机策略)出发,先进行策略评估,然后改进策略,评估改进的策略,再进一步改进策略,······不断迭代进行策略评估和改进,直到策略收敛、不再改变为止。这样的做法称为“策略迭代”。

免模型学习

若学习算法不依赖于环境建模,则称为“免模型学习”。

1、蒙特卡罗强化学习

在免模型情形下,策略选代算法首先遇到的问题是策略无法评估,这是由于模型未知而导致无法做全概率展开。此时,只能通过在环境中执行选择的动作,来观察转移的状态和得到的奖赏,受 K-摇臂**机的启发,一种直接的策略评估替代方法是多次"采样",然后求取平均累积奖赏来作为期望累积奖赏的近似,这称为蒙特卡罗强化学习。
 

2、时序差分学习

蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难。此类算法需在完成一个采样轨迹后再更新策略的值估计,而前面介绍的基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新。两者相比,蒙特卡罗强化学习算法的效率低得多,这里的主要问题是蒙特卡罗强化学习算法没有充分利用强化学习任务的 MDP 结构。时序差分(Temporal Difference,简称 TD) 学习则结合了动态规划与蒙特卡罗方法的思想,能做到更高效的免模型学习。