学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理

时间 2021-01-12

原文原文链接

立即学习:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu Q-Learning 奖励设置（目标是能够达到5）：（暂时设置：除了能够达到5的动作，都设置为0）通常每一行代表一个state, 每一列代表一个action -1，代表走不到那个地方可以走到的地方，用奖励来填充做强化学习，第一

>>阅读原文<<