Q-learning和Sarsa

时间 2021-01-03

标签 Q-learning Sarsa 强化学习繁體版

原文原文链接

Q-learning Q-learning是基于 T D ( 0 ) TD(0) TD(0)的无模型强化学习算法。其采用的价值函数为动作价值函数Q(s,a)。主要价值函数迭代公式为： Q π ( s t , a t ) = Q π ( s t , a t ) + α ( r t + 1 + γ m a x a Q ( s t + 1 , a t + 1 ) − Q ( s t , a ) ) Q

>>阅读原文<<

1. Qlearning、sarsa以及sarsa_lambda
2. 强化学习笔记（一） Qlearning & Sarsa
3. Sarsa
4. SARSA 和 Q-learning 的区别
5. sarsa和q-learning区别
6. Q-learning和Sarsa的区别
7. 4. Sarsa
8. 强化学习——Qlearning
9. 强化学习--QLearning
10. [强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
更多相关文章...
• XLink 和 XPointer 语法 - XLink 和 XPointer 教程
• Kotlin 类和对象 - Kotlin 教程
• IntelliJ IDEA 代码格式化配置和快捷键
• 适用于PHP初学者的学习线路和建议

最新文章

1. 【Java8新特性_尚硅谷】P1_P5
2. SpringSecurity 基础应用
3. SlowFast Networks for Video Recognition
4. 074-enable-right-click
5. WindowFocusListener窗体焦点监听器
6. DNS部署（二）DNS的解析（正向、反向、双向、邮件解析及域名转换）
7. Java基础（十九）集合（1）集合中主要接口和实现类
8. 浏览器工作原理学习笔记
9. chrome浏览器构架学习笔记
10. eclipse引用sun.misc开头的类

本站公众号

欢迎关注本站公众号,获取更多信息

1. Qlearning、sarsa以及sarsa_lambda
2. 强化学习笔记（一） Qlearning & Sarsa
3. Sarsa
4. SARSA 和 Q-learning 的区别
5. sarsa和q-learning区别
6. Q-learning和Sarsa的区别
7. 4. Sarsa
8. 强化学习——Qlearning
9. 强化学习--QLearning
10. [强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda

>>更多相关文章<<