On-policy Sarsa算法与Off-policy Q learning对比

Sarsa 算法(on-policy) 在s状态时,跟据当前Q网络以及一定的策略(e-greedy)来选取动作a,进而观测到下一状态s',并再次根据当前Q网络及相同的e- greedy策略选择动作a',这样就有了一个<s,a,r,s',a'>序列,成为一个sample。 注意: 1.在状态s'时,就知道了要采取哪个a',并真的采取了这个动作。 2.动作a的选取遵循e-greedy策略,目标Q值的计
相关文章
相关标签/搜索