强化学习（二）——Q learning、Sarsa、Deep Q learning三种算法思想

时间 2021-01-08

原文原文链接

一、Q learning算法如上图所示，Q learning的决策值（基于值的一种算法）存储在一张Q table中。可以先设定a1的奖励值为-2，a2的奖励值为1，那么在s1状态下我们选择奖励值大的动作a2，这就是上图中的Q（S1，a2)估计，接下来状态变为s2。更新思想：但是Q table中的决策值只是我们先假定的决策值，这不是最优的。因此需要每走一步就更新一次（单步更新