DQN

文章目录 神经网络的作用 更新神经网络 Experience replay 和 Fixed Q-targets 神经网络的作用 将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值, 这样我们就没必要在表格中记录 Q 值。而是直接使用神经网络生成 Q 值. 也能只输入状态值, 输出所有的动作值, 然后按照 Q learning 的原则, 直接选择拥有最大值的动作当做下一步要做
相关文章
相关标签/搜索