Q-learning

一、介绍 Q-learning 算法本质上是在求解函数Q(s,a). 如下图,根据状态s和动作a, 得出在状态s下采取动作a会获得的未来的奖励,即Q(s,a)。 然后根据Q(s,a)的值,决定下一步动作该如何选择。 二、算法 Q-learning 算法中我们通过获得Q(s,a)函数来寻找在某个状态下的最好的动作,使得最终获得的累计奖励最大 其Q(s,a)的计算方法是利用贝尔曼方程 如下图是常见的两
相关文章
相关标签/搜索