Reinforcement Learning - An Introduction强化学习读书笔记 Ch6.4-Ch6.9

6.4 Sarsa:on-policy下的时序差分控制 TD方法学习的是动作价值函数,更新方程为: 其中Qhat表示对Q的估计,不同的算法对Qhat有不同的计算。 Sarsa算法: 更新方程为: 由于算法的每次更新需要用到当前时刻的S和A,和下一时刻的R、S、A,所以取首字母称为sarsa。 Sarsa是一种on-policy的算法,与MC算法相似,需要保持各个状态被多次访问才能收敛,使用软性策略
相关文章
相关标签/搜索