强化学习　Ｑ—learning（python 代码）

时间 2021-01-01

原文原文链接

　前言：看了paper ,paper 上提到强化学习，所以打算写一个强化学习的专栏，本人比较水（真的水，你说看我的文章吓不吓人，刺不刺激）,我看了几篇别人的博客越看越糊涂，所以写一篇方便后来人下面介绍两个概念：　　　1 .reward 　(当做出一个选择，环境给的回馈，这个是固定不变的，是先验信息) 　　　２．Ｑ矩阵（和随机过程的Ｑ矩阵稍有不同，相当于机器人的大脑，通过算法训练出来，再拿来做决

>>阅读原文<<

强化学习 Ｑ—learning（python 代码）

强化学习　Ｑ—learning（python 代码）