强化学习之Q-learning算法实战

实战内容: 1、一维探宝 2、二维探宝       一、实际效果: 一维探宝: 二维探宝:       二、Q-learning算法: 输入:      环境E:用于对机器人做出的动作进行反馈,反馈当前奖励r(本设计中,规定拿到宝藏才有奖励,落入陷阱获得负奖励,其余无奖励)与下个状态state'。如实际效果中的横向轴与棋盘      动作空间A:一维中['left', 'right'];二维中[‘
相关文章
相关标签/搜索