AI学习笔记——Sarsa算法

时间 2020-12-31

原文原文链接

上一篇文章介绍了强化学习中的Q-Learning算法，这篇文章介绍一个与Q-Learning十分类似的算法——Sarsa算法。 1. 回顾Q Learning 还是同样的例子，红色机器人在4x4的迷宫中寻找黄色的宝藏。找到宝藏，将会的到+1的奖励，如果掉进黑色陷阱就回的到-1的奖励(惩罚)。首先回顾一下Q表如下 Q table (States\Actions) left (A1) right (