强化学习之DQN流程详解

本文的主要流程按照: Q learning的基本流程 神经网络的引入 deepmind 2015年nature论文的两种改进策略 完整的DQN流程(参考上述论文) 来进行讲解。 1. Q learning 的基本流程 几个基础概念: Q(s,a)--存储在状态s下动作a的Q value的矩阵,矩阵规模为num(s)*num(a); s--状态,a--动作,r--回报值; 整个Q学习的过程是利用be
相关文章
相关标签/搜索