西瓜书强化学习QLearning算法与网上版本比较

西瓜书上的QLearning算法与网上的版本比较:       不同点:西瓜书上的Q(x,a)就是Q表,π(x,a)就是贪婪算法选择动作的概率,这个值对应于ε。        西瓜书上的第六行的公式和另一版本的更新值公式的区别,网上版本是下一个状态的maxQ(x',a'), 因为是求最大值,所以不需要西瓜书上的第五行和第七行代码,直接查找下一个状态x'的最大值得Q(x',a'),而西瓜书上的不是。
相关文章
相关标签/搜索