强化学习 Q—learning(python 代码)

 前言:看了paper ,paper 上提到强化学习,因此打算写一个强化学习的专栏,本人比较水(真的水,你说看个人文章吓不吓人,刺不刺激),我看了几篇别人的博客越看越糊涂,因此写一篇方便后来人python 下面介绍两个概念:算法    1 .reward  (当作出一个选择,环境给的回馈,这个是固定不变的,是先验信息)app    2.Q矩阵(和随机过程的Q矩阵稍有不一样,至关于机器人的大脑,经过
相关文章
相关标签/搜索