学习笔记(06):决胜AI-强化学习实战系列视频课程-QLearning迭代计算实例

立即学习:https://edu.csdn.net/course/play/4916/88702?utm_source=blogtoedu Q-learning迭代计算实例     Rs_a表示即时奖励   1, 设计奖惩矩阵 从一个状态开始,直到它达到终止状态,称为1个episode.   实例计算:     因为最开始Q初始化的都是0, 所以一开始, 对于下一个动作的奖励计算时,使用的是max
相关文章
相关标签/搜索