强化学习　Ｑ—learning（python 代码）

时间 2020-05-23

原文原文链接

　前言：看了paper ,paper 上提到强化学习，因此打算写一个强化学习的专栏，本人比较水（真的水，你说看个人文章吓不吓人，刺不刺激）,我看了几篇别人的博客越看越糊涂，因此写一篇方便后来人python 下面介绍两个概念：算法　　　1 .reward 　(当作出一个选择，环境给的回馈，这个是固定不变的，是先验信息)app 　　　２．Ｑ矩阵（和随机过程的Ｑ矩阵稍有不一样，至关于机器人的大脑，经过

>>阅读原文<<

强化学习 Ｑ—learning（python 代码）

强化学习　Ｑ—learning（python 代码）