Q-learning

时间 2021-07-13

原文原文链接

一、介绍 Q-learning 算法本质上是在求解函数Q(s,a). 如下图，根据状态s和动作a, 得出在状态s下采取动作a会获得的未来的奖励，即Q(s,a)。然后根据Q(s,a)的值，决定下一步动作该如何选择。二、算法 Q-learning 算法中我们通过获得Q(s,a)函数来寻找在某个状态下的最好的动作，使得最终获得的累计奖励最大其Q(s,a)的计算方法是利用贝尔曼方程如下图是常见的两

>>阅读原文<<

1. 强化学习——Qlearning
2. 强化学习--QLearning
3. Qlearning、sarsa以及sarsa_lambda
4. 强化学习——Qlearning——value based
5. 强化学习学习总结（一）——Qlearning
6. 强化学习笔记（一） Qlearning & Sarsa
7. 强化学习学习总结（二）——QLearning算法更新
8. TensorFlow应用实战-17-Qlearning实现迷宫小游戏
9. 【强化学习--Qlearning】快速入门Q-learning强化学习思想
10. 西瓜书强化学习QLearning算法与网上版本比较
更多相关文章...