DQN——Deep Q Network

时间 2021-01-07

原文原文链接

1、什么是DQN？ DQN是通过多个Q-learning来训练卷积神经网络从而实现高维输入任务的策略控制。神经网络的返回值是Q(s, a)。 2、DQN是value based 还是policy based？是value-based，DQN是根据估计的动作价值函数选择动作的。而policy based是参数化策略然后最大化性能指标的办法。 3、DQN是on-policy还是off-policy?