强化学习——(3)Q-Learning

1. Q-learning 介绍 1.1 Critic critic 本身并没有办法决定要采取哪一个action,其主要用来完成:衡量一个action到底好不好。只能基于当前的state,输出采取这个action,预期到整个游戏结束时候的累积得分。 简单的说,critic并不能衡量一个state(记为 s s s)的好坏,只能衡量在give某个state,接下来使用action(记为 π \pi
相关文章
相关标签/搜索