DQN(Deep Reiforcement Learning) 发展历程（四）

时间 2019-12-06

标签 dqn deep reiforcement learning 发展历程繁體版

原文原文链接

目录html

DQN发展历程(一)学习

DQN发展历程(二)htm

DQN发展历程(三)blog

DQN发展历程(四)get

DQN发展历程(五)it

不基于模型的控制

选取动做的方法

贪婪法，每次控制都选择状态值最大的动做，容易局部收敛，找不到全局最优。
引入 epsilon-greedy，按 epsilon 的几率随机选择一个动做，按 1 - epsilon 的几率使用贪婪法，选择状态值最大的动做

在策略上的学习（on-policy）

表明方法：SARSA
每次按 epsilon-greedy 更新策略后，也按此方法更新后的策略选择下一步的动做。

不在策略上的学习（off-policy）

表明方法：Q-learning
更新策略和 SARSA 不一样，每次直接按照贪婪法选择最大状态值来更新状态，可是选择动做时仍然使用 epsilon-greedy

参考

david siver 课程class

https://home.cnblogs.com/u/pinard/方法

相关文章

相关标签/搜索

卷积神经网络发展历程

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<