强化学习之Q-learning算法实战

时间 2021-08-15

原文原文链接

实战内容： 1、一维探宝 2、二维探宝一、实际效果：一维探宝：二维探宝：二、Q-learning算法：输入：环境E：用于对机器人做出的动作进行反馈，反馈当前奖励r（本设计中，规定拿到宝藏才有奖励，落入陷阱获得负奖励，其余无奖励）与下个状态state'。如实际效果中的横向轴与棋盘动作空间A：一维中['left', 'right']；二维中[‘

>>阅读原文<<