Q-Learning

Q-Learning off-policy 1.公式解读 https://www.zhihu.com/question/26408259 2.公式=>矩阵示例 房间最优路径问题 http://www.javashuo.com/article/p-rvlhihrj-dy.html http://mnemstudio.org/path-finding-q-learning-tutorial.htm 注
相关文章
相关标签/搜索