强化学习(二)——Q learning、Sarsa、Deep Q learning三种算法思想

一、Q learning算法      如上图所示,Q learning的决策值(基于值的一种算法)存储在一张Q table中。可以先设定a1的奖励值为-2,a2的奖励值为1,那么在s1状态下我们选择奖励值大的动作a2,这就是上图中的Q(S1,a2)估计,接下来状态变为s2。      更新思想:但是Q table中的决策值只是我们先假定的决策值,这不是最优的。因此需要每走一步就更新一次(单步更新
相关文章
相关标签/搜索