【李弘毅深度强化学习】3，Q-learning (Basic Idea)

时间 2021-01-16

原文原文链接

这部分主要讲解一下Q-learning部分的知识这里介绍一下critic：给定一个critic，并不会明确的指出需要做出什么动作，当给予一个actor一个策略Π的时候，critic会给出这个策略的分数，vΠ：当actor在状态s的时候选择策略Π，之后衡量这个actor在这个状态s的价值。中间这个图片的v值就是很大的，因为还有很多怪没有打，并且还有阻挡敌人的盾牌，但是右边这个图片的vΠ值就比较低，

>>阅读原文<<