强化学习系列（十）：On-policy Control with Approximation

时间 2021-01-08

标签强化学习繁體版

原文原文链接

一、前言本章我们关注on-policy control 问题，这里采用参数化方法逼近action-value函数 q̂ (s,a,w)≈q(s,a) q ^ ( s , a , w ) ≈ q ( s , a ) ，其中， w w 为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算法，是对上一章中介绍的semi-gradient TD(0)的

>>阅读原文<<

1. 强化学习系列（十一）：Off-policy Methods with Approximation
2. 强化学习系列（九）：On-policy Prediction with Approximation
3. 强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation
4. 强化学习系列（十二）：Eligibility Traces
5. 强化学习（RLAI）读书笔记第十一章 Off-policy Methods with Approximation
6. 《reinforcement learning：an introduction》第十章《On-policy Control with Approximation》总结
7. 【论文】强化学习必读经典论文 | 如何学习强化学习 | 强化学习入门
8. 强化学习系列:Deep Q Network (DQN)
9. 强化学习系列（一）：强化学习简介
10. 深度强化学习系列之(1): 强化学习概述
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议

最新文章

1. 1.2 Illustrator多文档的几种排列方式
2. 5.16--java数据类型转换及杂记
3. 性能指标
4. （1.2）工厂模式之工厂方法模式
5. Java记录 -42- Java Collection
6. Java记录 -42- Java Collection
7. github使用
8. Android学习笔记（五十）：声明、请求和检查许可
9. 20180626
10. 服务扩容可能引入的负面问题及解决方法

本站公众号

欢迎关注本站公众号,获取更多信息

1. 强化学习系列（十一）：Off-policy Methods with Approximation
2. 强化学习系列（九）：On-policy Prediction with Approximation
3. 强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation
4. 强化学习系列（十二）：Eligibility Traces
5. 强化学习（RLAI）读书笔记第十一章 Off-policy Methods with Approximation
6. 《reinforcement learning：an introduction》第十章《On-policy Control with Approximation》总结
7. 【论文】强化学习必读经典论文 | 如何学习强化学习 | 强化学习入门
8. 强化学习系列:Deep Q Network (DQN)
9. 强化学习系列（一）：强化学习简介
10. 深度强化学习系列之(1): 强化学习概述

>>更多相关文章<<