学习笔记(06):决胜AI-强化学习实战系列视频课程-QLearning迭代计算实例

时间 2021-01-12

原文原文链接

立即学习:https://edu.csdn.net/course/play/4916/88702?utm_source=blogtoedu Q-learning迭代计算实例 Rs_a表示即时奖励 1，设计奖惩矩阵从一个状态开始，直到它达到终止状态，称为1个episode. 实例计算：因为最开始Q初始化的都是0，所以一开始, 对于下一个动作的奖励计算时，使用的是max

>>阅读原文<<