notes4-- 深度强化学习入门到熟练（Shusen Wang）

时间 2021-01-16

标签 DRL 繁體版

原文原文链接

Actor-Critic Methods 固定S，更新策略网络的 θ \theta θ，使得V的平均值增加。策略网络 π \pi π相当于体操运动员，裁判相当于价值网络q，运动员努力提高技术使得裁判打分更高，裁判打的分数就是监督信号，运动员靠裁判打的分数提高自己技术。更新价值网络的w，是为了让q的打分更精准。裁判相当于价值网络q，一开始是随机初始化，裁判没有判断能力。裁判会逐渐改变自己的

>>阅读原文<<