Reinforcement Learning - An Introduction强化学习读书笔记 Ch6.4-Ch6.9

时间 2021-01-13

标签强化学习入门强化学习繁體版

原文原文链接

6.4 Sarsa：on-policy下的时序差分控制 TD方法学习的是动作价值函数，更新方程为：其中Qhat表示对Q的估计，不同的算法对Qhat有不同的计算。 Sarsa算法: 更新方程为：由于算法的每次更新需要用到当前时刻的S和A，和下一时刻的R、S、A，所以取首字母称为sarsa。 Sarsa是一种on-policy的算法，与MC算法相似，需要保持各个状态被多次访问才能收敛，使用软性策略

>>阅读原文<<