Deep Q-learning

时间 2021-07-13

原文原文链接

https://www.bilibili.com/video/av16921335?p=14 DQN 两种模型状态和动作作输入，得到动作的Q值状态作输入，所有动作的Q值作输出，选择Q值最大的对应的动作作为接下来要做的动作。作业是第二种神经网络的更新 DQN强大的根本原因 DQN有记忆库用于学习之前的经历 Q-learning是一种off-poilcy的离线学习法，可以学习当前经历着的，也可