强化学习(五)---基于模型的强化学习实战

有一个4*4的矩阵,0和15代表出口 结果输出第一个矩阵一共输出16个向量,每个向量里面的位置代表,在当前状态往哪里走比较好,第二个矩阵对第一个矩阵进行统计处理,更加直观,也是表示在16个状态,每个位置最好的动作方向 参考资料:唐宇迪视频
相关文章
相关标签/搜索