DQN——Deep Q Network

1、什么是DQN? DQN是通过多个Q-learning来训练卷积神经网络从而实现高维输入任务的策略控制。神经网络的返回值是Q(s, a)。 2、DQN是value based 还是policy based? 是value-based,DQN是根据估计的动作价值函数选择动作的。而policy based是参数化策略然后最大化性能指标的办法。 3、DQN是on-policy还是off-policy?
相关文章
相关标签/搜索