西瓜书强化学习QLearning算法与网上版本比较

时间 2020-12-29

标签强化学习 QLearning 机器学习繁體版

原文原文链接

西瓜书上的QLearning算法与网上的版本比较：不同点：西瓜书上的Q(x,a)就是Q表，π（x,a）就是贪婪算法选择动作的概率，这个值对应于ε。西瓜书上的第六行的公式和另一版本的更新值公式的区别，网上版本是下一个状态的maxQ(x',a')，因为是求最大值，所以不需要西瓜书上的第五行和第七行代码，直接查找下一个状态x'的最大值得Q(x',a')，而西瓜书上的不是。

>>阅读原文<<