强化学习-Q-learning学习笔记

Q学习动做探索策略中的ep-greepy,以ep的几率进行随机探索,以1-ep的几率以最大值策略进行开发,由于设定的迭代次数比较多,因此确定存在必定的次数去搜索不一样的动做。git

1)Python版本github

b站上的学习教程https://blog.csdn.net/qq_36124802/article/details/79882269,其中的pandas,np是数据处理包。使用其余语言也是能够的,用矩阵代替,主要是用多维矩阵保存数据,而后对矩阵进行计算处理。c#

2)c语言版本学习

https://blog.csdn.net/qq_23144435/article/details/80368635.net

 

3)C++版本blog

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp教程

4)一个完整的unity demo项目,使用c# 语言开发

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assetspandas

相关文章
相关标签/搜索