几句话总结一个算法之Q-Learning与Sarsa

时间 2019-11-10

标签几句话总结一个算法 learning sarsa 繁體版

原文原文链接

与Policy Gradients的不一样之处在于，这两个算法评估某个状态s执行某个动做a的指望奖励，即Q(s,a)算法

Q(s,a) 有两种方法计算方法，第一种直接查表或者模型预估，Q(s, a) = checkTable(s, a)，这个在训练初期是很是不许确的；第二种方法是经过"一步蒙特卡洛"方法获取，假设执行a后状态是s'，且s'执行了动做了a'，Q’(s, a) = 当前状态奖励 + 衰减系数 * Q(s',a')，近似于一个动态规划问题，当游戏结束，就只有当前状态奖励。但与动态规划不一样的是，这个递归关系不会等到游戏结束以后才更新，而是走一步更新一次。学习

Q(s, a)表示了模型根据历史数据的预测奖励，而Q'(s,a)表示对当前行动的预测奖励。一个好的模型，Q(s,a) 和 Q'(s,a)应该尽可能接近，同时又为了迭代的稳定性，新的Q(s, a) 更新为老Q(s,a)和Q'(s,a)的一个加权平均值（学习率控制）。spa

由于这种方法预估的是奖励值而不是几率分布，因此通常采用奖励最大的动做，这个训练带来了问题，由于在某些状态下可能永远只选择某个动做，要解决这个方法，须要引入epsilon-greedy，即以大几率选择最大奖励动做，保证探索的聚焦性，同时以小几率随机选择某个动做，保证探索空间完备性。htm

因为引入了epsilon-greedy，在Q’(s, a) 迭代公式里，s'该选择哪一个动做a‘来计算出现两种选择，是选择最大奖励动做，仍是和当前s的选择动做的策略保持一致以小几率随机选择某个动做？递归

若是在s’选择最大奖励动做的贪心策略，就是Q learning，这个叫异策略(off-policy)，若是是和当前s的选择动做的策略保持一致，就是 Sarsa，这种也叫同策略(on-policy)游戏

具体理解的例子能够参考：http://mnemstudio.org/path-finding-q-learning-tutorial.htmget

相关文章

相关标签/搜索

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<