Reinforcement Learning(二):Value-Based

回顾一下action-value函数: Value-Based是指: 但是一般来说,这个Q*我们是无从得出的,因此提出使用卷积网络来近似: Deep Q-Network (DQN) Approximate the Q Function Deep Q Network (DQN) Apply DQN to Play Game Temporal Difference (TD) Learning 一个小例
相关文章
相关标签/搜索