【李弘毅深度强化学习】3,Q-learning (Basic Idea)

这部分主要讲解一下Q-learning部分的知识 这里介绍一下critic:给定一个critic,并不会明确的指出需要做出什么动作,当给予一个actor一个策略Π的时候,critic会给出这个策略的分数,vΠ:当actor在状态s的时候选择策略Π,之后衡量这个actor在这个状态s的价值。中间这个图片的v值就是很大的,因为还有很多怪没有打,并且还有阻挡敌人的盾牌,但是右边这个图片的vΠ值就比较低,
相关文章
相关标签/搜索