深度强化学习系列之(*): Double Q-Learning算法原理详解

时间 2021-01-12

标签 Double Q-Learning Overestimation 过估计 Q-learning 繁體版

原文原文链接

论文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf 本论文是由DeepMind发表于2015年NIPS的一篇论文，作者Hasselt。前言： Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在，而导致overestimation的主要原因来自于最大化值函数(

>>阅读原文<<

1. 深度强化学习系列之(1): 强化学习概述
2. 深度强化学习——强化学习到深度强化学习
3. 深度强化学习1——强化学习到深度强化学习
4. 【深度学习介绍系列之一】——深度强化学习
5. 强化学习——Qlearning
6. 强化学习--QLearning
7. 深度强化学习DQN系算法理解
8. 深度强化学习系列（二）：强化学习基础
9. 深度强化学习系列（一）：强化学习概述
10. 强化学习——Qlearning——value based
更多相关文章...
• Spring体系结构详解 - Spring教程
• MySQL常用运算符详解 - MySQL教程
• 算法总结-深度优先算法
• 算法总结-广度优先算法

最新文章

1. Window下Ribbit MQ安装
2. Linux下Redis安装及集群搭建
3. shiny搭建网站填坑战略
4. Mysql8.0.22安装与配置详细教程
5. Hadoop安装及配置
6. Python爬虫初学笔记
7. 部署LVS-Keepalived高可用集群
8. keepalived+mysql高可用集群
9. jenkins 公钥配置
10. HA实用详解

本站公众号

欢迎关注本站公众号,获取更多信息

1. 深度强化学习系列之(1): 强化学习概述
2. 深度强化学习——强化学习到深度强化学习
3. 深度强化学习1——强化学习到深度强化学习
4. 【深度学习介绍系列之一】——深度强化学习
5. 强化学习——Qlearning
6. 强化学习--QLearning
7. 深度强化学习DQN系算法理解
8. 深度强化学习系列（二）：强化学习基础
9. 深度强化学习系列（一）：强化学习概述
10. 强化学习——Qlearning——value based

>>更多相关文章<<