策略梯度说明

时间 2021-01-12

原文原文链接

如有错误，欢迎指正。说明策略梯度 ∇θEx[f(x)]=∇θ ∑xp(x) f(x) =∑x ∇θp(x) f(x) =∑xp(x)【∇θp(x)/p(x)】f(x) =∑xp(x) ∇θlogp(x) f(x) =Ex[f(x) ∇θlogp(x)] 策略梯度的损失函数是 neg_log_prob =tf.reduce_sum(-tf.log(self.all_act_prob)*tf