强化学习(五)---基于模型的强化学习实战

有一个4*4的矩阵,0和15表明出口3d 结果输出第一个矩阵一共输出16个向量,每一个向量里面的位置表明,在当前状态往哪里走比较好,第二个矩阵对第一个矩阵进行统计处理,更加直观,也是表示在16个状态,每一个位置最好的动做方向视频 参考资料:唐宇迪视频blog
相关文章
相关标签/搜索