Sarsa 与 Q learning对比

Sarsa 算法(on-policy)     处于状态 s 时,根据当前 Q网络以及一定的策略来选取动作 a,进而观测到下一步状态 s',并再次根据当前 Q 网络及相同的策略选择动作 a',这样就有了一个【 s,a,r,s',a' 】序列。     处于状态 s' 时,就知道了要采取哪个 a',并真的采取了这个动作。动作 a 的选取遵循 e-greedy 策略,目标 Q 值的计算也是根据策略得到
相关文章
相关标签/搜索