DQN 原理(二):理解 DQN 中的“Q”

继续讨论 DQN(Deep Q Networks)。可能读者对“Deep”和“Networks”已经有一定了解,但对“Q” 的含义不甚明朗。 本文仍然结合上一篇《DQN 原理(一):环境,行为,观测》和上上篇《利用 TensorFlow + Keras 玩 Atari 游戏》的代码及论文【1】进行学习和理解。 AI 在每个时刻 t,根据其观测到的选择一种行为,用策略函数表示。 策略函数 实现从观测
相关文章
相关标签/搜索