强化学习(Double/Prioritised Replay/Dueling DQN)

Q_Learning和Sarsa中都是利用了Q表来记录Q值,小规模场景状态往往比较少,便可以方便的用表存储再查询更新,但很多现实问题状态和动作都很复杂,而且如果出现连续值的状态则需要等距离分割离散,存储量往往太大,比如像下围棋如果还用Q表来存状态是不可能的事情。那么如果不用Q表存取,怎么得到价值函数呢? 近似表示 那么就来拟合吧!即近似表示学习价值函数。 v ( S ) ≈ v ^ ( S , w
相关文章
相关标签/搜索