Policy Gradient简述

占个坑!!! 简单解释 Policy Gradient需要Actor 网络来实现,通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy(动作的概率)。对于动作的价值评价更是多种多样,这些就是PG(Policy Gradient)的核心部分。 注:log的有无区别 加log:增加了非线性 无log:无非线性 详情在这里: 一共涉及6种价值的评估: 1 轨迹中,全部奖励值的
相关文章
相关标签/搜索