深度学习算法 Q-learning 原理

Q-learning Q-learning 是 value-based 的方法,在这种方法中我们不是要训练一个 policy,而是要训练一个critic网络。critic 并不直接采取行为,只是对现有的 actor ,评价它的好坏。 Value-Fuction critic 给出了一个 value function ,代表在遇到游戏的某个 state 后,采取策略为的actor  一直玩到游戏结束
相关文章
相关标签/搜索