强化学习(二):Sarsa

Sarsa(state-action-reward-state_-action_) 1.与Q_Learning的区别     Sarsa是on-policy,即在线学习型,下一个 state_和action_ 将会变成他真正采取的 action 和 state;Q_Learning是off-policy,即离线学习型,state_和 action_ 在算法更新的时候都还是不确定的。这种不同之处使得
相关文章
相关标签/搜索