强化学习 Q—learning(python 代码)

 前言:看了paper ,paper 上提到强化学习,所以打算写一个强化学习的专栏,本人比较水(真的水,你说看我的文章吓不吓人,刺不刺激),我看了几篇别人的博客越看越糊涂,所以写一篇方便后来人 下面介绍两个概念:    1 .reward  (当做出一个选择,环境给的回馈,这个是固定不变的,是先验信息)    2.Q矩阵(和随机过程的Q矩阵稍有不同,相当于机器人的大脑,通过算法训练出来,再拿来做决
相关文章
相关标签/搜索