【强化学习篇】--强化学习案例详解一

1、前述spa 本文经过一个案例来说解Q-Learningblog 2、具体io 一、案例class 假设咱们须要走到5房间。im 转变为以下图:先构造奖励,达到5,即可以走得5的action则说明奖励比较高设置成100,没有达到5说明奖励比较低,设置成0。db     Q-learning实现步骤:img  二、案例详解:co   第一步的Q(1,5):最开始的Q矩阵都是零矩阵,迭代完以后Q(1
相关文章
相关标签/搜索