强化学习系列（十一）：Off-policy Methods with Approximation

时间 2021-01-02

标签强化学习泛化繁體版

原文原文链接

一、前言针对Policy iteration 中存在的exploitation问题，在第五章中将强化学习算法分为on-policy算法和off-policy算法。前两章中，我们讨论了对on-policy问题的函数逼近，本章中将重点介绍off-policy问题的函数逼近。两者差异很大。第六章、第七章中出现的 tabular off-policy 方法很容易用semi-gradient方法进行扩展，

>>阅读原文<<

1. 强化学习系列（十）：On-policy Control with Approximation
2. 强化学习（RLAI）读书笔记第十一章 Off-policy Methods with Approximation
3. 强化学习系列（九）：On-policy Prediction with Approximation
4. 强化学习系列（十二）：Eligibility Traces
5. 《reinforcement learning：an introduction》第十一章《Off-policy Methods with Approximation》总结
6. 强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation
7. 强化学习七 - Policy Gradient Methods
8. 深度强化学习系列（一）：强化学习概述
9. 强化学习-An introduction之 On-policy Prediction with Function Approximation 个人笔记
10. 强化学习系列（一）：强化学习简介
更多相关文章...
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• Kotlin学习（一）基本语法
• Tomcat学习笔记（史上最全tomcat学习笔记）

最新文章

1. No provider available from registry 127.0.0.1:2181 for service com.ddbuy.ser 解决方法
2. Qt5.7以上调用虚拟键盘(支持中文)，以及源码修改(可拖动，水平缩放)
3. 软件测试面试- 购物车功能测试用例设计
4. ElasticSearch（概念篇）：你知道的, 为了搜索…
5. redux理解
6. gitee创建第一个项目
7. 支持向量机之硬间隔（一步步推导，通俗易懂）
8. Mysql 异步复制延迟的原因及解决方案
9. 如何在运行SEPM配置向导时将不可认的复杂数据库密码改为简单密码
10. windows系统下tftp服务器使用

本站公众号

欢迎关注本站公众号,获取更多信息

1. 强化学习系列（十）：On-policy Control with Approximation
2. 强化学习（RLAI）读书笔记第十一章 Off-policy Methods with Approximation
3. 强化学习系列（九）：On-policy Prediction with Approximation
4. 强化学习系列（十二）：Eligibility Traces
5. 《reinforcement learning：an introduction》第十一章《Off-policy Methods with Approximation》总结
6. 强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation
7. 强化学习七 - Policy Gradient Methods
8. 深度强化学习系列（一）：强化学习概述
9. 强化学习-An introduction之 On-policy Prediction with Function Approximation 个人笔记
10. 强化学习系列（一）：强化学习简介

>>更多相关文章<<