强化学习（Double/Prioritised Replay/Dueling DQN）

时间 2021-01-12

标签 DQN DDQN prioritised replay dueling gym 繁體版

原文原文链接

Q_Learning和Sarsa中都是利用了Q表来记录Q值，小规模场景状态往往比较少，便可以方便的用表存储再查询更新，但很多现实问题状态和动作都很复杂，而且如果出现连续值的状态则需要等距离分割离散，存储量往往太大，比如像下围棋如果还用Q表来存状态是不可能的事情。那么如果不用Q表存取，怎么得到价值函数呢？近似表示那么就来拟合吧！即近似表示学习价值函数。 v ( S ) ≈ v ^ ( S , w

>>阅读原文<<