On-policy Sarsa算法与Off-policy Q learning对比

时间 2021-01-17

标签机器学习 Sarsa算法 Q learning 繁體版

原文原文链接

Sarsa 算法（on-policy）在s状态时，跟据当前Q网络以及一定的策略（e-greedy）来选取动作a，进而观测到下一状态s'，并再次根据当前Q网络及相同的e- greedy策略选择动作a',这样就有了一个<s，a，r，s'，a'>序列，成为一个sample。注意： 1.在状态s'时，就知道了要采取哪个a'，并真的采取了这个动作。 2.动作a的选取遵循e-greedy策略，目标Q值的计

>>阅读原文<<

1. Sarsa 与 Q learning对比
2. Q-learning与Sarsa算法的区别
3. 强化学习之Q-learning && SARSA 对比
4. TD Learning，SARSA，Q Learning
5. Q-learning和Sarsa
6. SARSA与Q-learning的区别
7. 基于table的Q learning和Sarsa算法
8. 强化学习(五)：Sarsa算法与Q-Learning算法
9. SARSA 和 Q-learning 的区别
10. 强化学习（Q-Learning，Sarsa）
更多相关文章...
• PHP 类型比较 - PHP教程
• Scala 方法与函数 - Scala教程
• 算法总结-广度优先算法
• 算法总结-回溯法

最新文章

1. CVPR 2020 论文大盘点-光流篇
2. Photoshop教程_ps中怎么载入图案？PS图案如何导入？
3. org.pentaho.di.core.exception.KettleDatabaseException:Error occurred while trying to connect to the
4. SonarQube Scanner execution execution Error --- Failed to upload report - 500: An error has occurred
5. idea 导入源码包
6. python学习 day2——基础学习
7. 3D将是页游市场新赛道？
8. osg--交互
9. OSG-交互
10. Idea、spring boot 图片(pgn显示、jpg不显示)解决方案

本站公众号

欢迎关注本站公众号,获取更多信息

1. Sarsa 与 Q learning对比
2. Q-learning与Sarsa算法的区别
3. 强化学习之Q-learning && SARSA 对比
4. TD Learning，SARSA，Q Learning
5. Q-learning和Sarsa
6. SARSA与Q-learning的区别
7. 基于table的Q learning和Sarsa算法
8. 强化学习(五)：Sarsa算法与Q-Learning算法
9. SARSA 和 Q-learning 的区别
10. 强化学习（Q-Learning，Sarsa）

>>更多相关文章<<