Q-learning算法实践

我们将会应用 Q-learning 算法完成一个经典的 Markov 决策问题 -- 走迷宫! 项目描述: 在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。 如上图所示,智能机器人显示在右上角。在我们的迷宫中,有陷阱(红色炸弹)及终点(蓝色的目标点)两种情景。机器人要尽量避开陷阱、尽快到达目的地。 小车可执行的动作包括:向上走 u、向右走 r、向下走 d、向左走 l。 执行不同的动作后
相关文章
相关标签/搜索