通过减小Bootstrapping Error Reduction来进行离线RL学习

时间 2021-01-04

标签 Reinforcement learning 繁體版

原文原文链接

最近尝试了一些offline数据的off-policy算法，发现value function的overestimation问题非常严重，在正常学习估计收敛在400左右的价值函数在离线数据下竟然会一直累积到几十万，高的离谱。正好近期offline RL领域就有一篇工作讲这件事，所以值得仔细读一读。论文全称： Stabilizing Off-Policy Q-Learning via Bootstr

>>阅读原文<<

1. 通过node.js进行前后端分离
2. 离线学习
3. Netty学习笔记（二）--- Bootstrapping
4. RL学习笔记
5. 强化学习(RL)
6. Android 通过轮询进行通知的学习
7. 机器学习（十）-------- 降维(Dimensionality Reduction)
8. 在线学习与离线学习
9. 《强化学习Sutton》读书笔记（六）——n步Bootstrapping（n-step Bootstrapping）
10. 机器学习中的在线学习与离线学习
更多相关文章...
• 您已经学习了 XQuery，接下来该学习什么内容呢？ - XQuery 教程
• 我们已经学习了 SQL，下一步学习什么呢？ - SQL 教程
• 适用于PHP初学者的学习线路和建议
• Tomcat学习笔记（史上最全tomcat学习笔记）

最新文章

1. 跳槽面试的几个实用小技巧，不妨看看！
2. Mac实用技巧 |如何使用Mac系统中自带的预览工具将图片变成黑白色?
3. Mac实用技巧 |如何使用Mac系统中自带的预览工具将图片变成黑白色?
4. 如何使用Mac系统中自带的预览工具将图片变成黑白色?
5. Mac OS非兼容Windows软件运行解决方案——“以VMware & Microsoft Access为例“
6. 封装 pyinstaller -F -i b.ico excel.py
7. 数据库作业三ER图待完善
8. nvm安装使用低版本node.js(非命令安装)
9. 如何快速转换图片格式
10. 将表格内容分条转换为若干文档

本站公众号

欢迎关注本站公众号,获取更多信息

1. 通过node.js进行前后端分离
2. 离线学习
3. Netty学习笔记（二）--- Bootstrapping
4. RL学习笔记
5. 强化学习(RL)
6. Android 通过轮询进行通知的学习
7. 机器学习（十）-------- 降维(Dimensionality Reduction)
8. 在线学习与离线学习
9. 《强化学习Sutton》读书笔记（六）——n步Bootstrapping（n-step Bootstrapping）
10. 机器学习中的在线学习与离线学习

>>更多相关文章<<