策略梯度说明

如有错误,欢迎指正。 说明策略梯度   ∇θEx[f(x)]=∇θ ∑xp(x) f(x) =∑x ∇θp(x) f(x) =∑xp(x)【∇θp(x)/p(x)】f(x) =∑xp(x)  ∇θlogp(x)  f(x) =Ex[f(x) ∇θlogp(x)] 策略梯度的损失函数是 neg_log_prob =tf.reduce_sum(-tf.log(self.all_act_prob)*tf
相关文章
相关标签/搜索