notes4-- 深度强化学习入门到熟练(Shusen Wang)

Actor-Critic Methods 固定S,更新策略网络的 θ \theta θ,使得V的平均值增加。 策略网络 π \pi π相当于体操运动员,裁判相当于价值网络q,运动员努力提高技术使得裁判打分更高,裁判打的分数就是监督信号,运动员靠裁判打的分数提高自己技术。 更新价值网络的w,是为了让q的打分更精准。 裁判相当于价值网络q, 一开始是随机初始化,裁判没有判断能力。 裁判会逐渐改变自己的
相关文章
相关标签/搜索