Sarsa

Sarsa的决策部分与Q-Learning一样,使用Q表形式,挑选值较大的动作施加在环境中来换取奖惩,但sarsa的更新方式不同。其更新准则如下:  同样, 在 时挑选一个带来最大潜在奖励的动作 a2继续写作业状态 s2。  此时, 如果是 Q learning, 首先会观看一下在 s2 上选取哪一个动作会带来最大的奖励, 但是在真正要做决定时, 却不一定会选取到那个带来最大奖励的动作, Q-le
相关文章
相关标签/搜索