Q-learning算法实现1（matlab）

时间 2020-05-23

原文原文链接

算法伪代码：算法获得Q表后，根据以下算法选择最优策略：dom 以机器人走房间为例，代码实现以下：code 原文连接以下：https://www.jianshu.com/p/29db50000e3fblog 注：原文中的房间状态0-5分别对应代码中1-6get %机器人走房间Q-learning的实现 %% 基本参数 episode=100; %探索的迭代次数 alpha=1;%更新步长 gamm