强化学习——DQN算法

时间 2020-12-30

原文原文链接

Off-Policy：会记忆之前的经验，依据经验做决策。 Experience replay：记忆库（用于重复学习） Fixed Q-targets：暂时冻结q_target函数（切断相关性）这里边的q_target就是Q现实两个神经网络是为了固定住一个神经网络 (target_net) 的参数, target_net 是 eval_net的一个历史版本, 拥有 eval_net 很久之前的一