强化学习-Q-learning学习笔记

时间 2019-12-12

标签强化学习 learning 笔记繁體版

原文原文链接

Q学习动做探索策略中的ep-greepy,以ep的几率进行随机探索，以1-ep的几率以最大值策略进行开发，由于设定的迭代次数比较多，因此确定存在必定的次数去搜索不一样的动做。git

1）Python版本github

b站上的学习教程https://blog.csdn.net/qq_36124802/article/details/79882269，其中的pandas，np是数据处理包。使用其余语言也是能够的，用矩阵代替，主要是用多维矩阵保存数据，而后对矩阵进行计算处理。c#

2）c语言版本学习

https://blog.csdn.net/qq_23144435/article/details/80368635.net

3）C++版本blog

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp教程

4）一个完整的unity demo项目，使用c# 语言开发

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assetspandas