强化学习:q-learning算法

参考:https://www.cnblogs.com/dragonir/p/6224313.html 前述:        训练的越多,Q矩阵被优化得越好!   例子:  第一次episode:    想象中:当agent处于状态5,只能去(5,1) (5,4) (5,5) Q矩阵更新为: 第二次episode: 3能去 (3,1) (3,2)  (3,4)   随机地,我们选择(3,1) 想象中
相关文章
相关标签/搜索