DQN(Deep Reiforcement Learning) 发展历程(四)

DQN发展历程(一)学习

DQN发展历程(二)htm

DQN发展历程(三)blog

DQN发展历程(四)get

DQN发展历程(五)it

不基于模型的控制

选取动做的方法

  • 贪婪法,每次控制都选择状态值最大的动做,容易局部收敛,找不到全局最优。
  • 引入 epsilon-greedy,按 epsilon 的几率随机选择一个动做,按 1 - epsilon 的几率使用贪婪法,选择状态值最大的动做

在策略上的学习(on-policy)

  • 表明方法:SARSA
  • 每次按 epsilon-greedy 更新策略后,也按此方法更新后的策略选择下一步的动做。

不在策略上的学习(off-policy)

  • 表明方法:Q-learning
  • 更新策略和 SARSA 不一样,每次直接按照贪婪法选择最大状态值来更新状态,可是选择动做时仍然使用 epsilon-greedy

参考

david siver 课程class

https://home.cnblogs.com/u/pinard/方法

相关文章
相关标签/搜索