Deep Q-learning

https://www.bilibili.com/video/av16921335?p=14 DQN 两种模型 状态和动作作输入,得到动作的Q值 状态作输入,所有动作的Q值作输出,选择Q值最大的对应的动作作为接下来要做的动作。 作业是第二种 神经网络的更新 DQN强大的根本原因 DQN有记忆库用于学习之前的经历 Q-learning是一种off-poilcy的离线学习法,可以学习当前经历着的,也可
相关文章
相关标签/搜索