Q-learning算法实现1(matlab)

算法伪代码: 得到Q表后,根据如下算法选择最优策略: 以机器人走房间为例,代码实现如下: 原文链接如下:https://www.jianshu.com/p/29db50000e3f 注:原文中的房间状态0-5分别对应代码中1-6 %机器人走房间Q-learning的实现 %% 基本参数 episode=100; %探索的迭代次数 alpha=1;%更新步长 gamma=0.8;%折扣因子 stat
相关文章
相关标签/搜索