Policy Gradient简述

时间 2020-12-24

标签策略梯度 ACTOR 繁體版

原文原文链接

占个坑！！！简单解释 Policy Gradient需要Actor 网络来实现，通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy（动作的概率）。对于动作的价值评价更是多种多样，这些就是PG（Policy Gradient）的核心部分。注：log的有无区别加log：增加了非线性无log：无非线性详情在这里：一共涉及6种价值的评估： 1 轨迹中，全部奖励值的

>>阅读原文<<

1. Filter-Policy简述
2. Policy Gradient Algorithms
3. 7 Policy Gradient
4. Policy Gradient 算法
5. DRL（三）——Policy Gradient
6. Ⅶ. Policy Gradient Methods
7. Policy Gradient and From On-policy to Off-policy
8. [Reinforcement Learning] Policy Gradient Methods
9. （转）RL — Policy Gradient Explained
10. policy gradient 的理解
更多相关文章...
• Scala 简介 - Scala教程
• AJAX 简介 - PHP教程
• Github 简明教程
• Java Agent入门实战（二）-Instrumentation源码概述