学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理

立即学习:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu Q-Learning     奖励设置(目标是能够达到5):   (暂时设置: 除了能够达到5的动作,都设置为0)   通常每一行代表一个state, 每一列代表一个action -1,代表走不到那个地方 可以走到的地方,用奖励来填充     做强化学习,第一
相关文章
相关标签/搜索