Policy gradient(策略梯度详解)

时间 2020-12-24

原文原文链接

文章目录策略梯度基本知识什么是策略梯度？强化学习案例策略梯度公式详解如何使你的损失函数更好增加一个基准为每一个action分配不同的权重策略梯度基本知识什么是策略梯度？直接根据状态输出动作或者动作的概率。那么怎么输出呢，最简单的就是使用神经网络啦！我们使用神经网络输入当前的状态，网络就可以输出我们在这个状态下采取每个动作的概率，那么网络应该如何训练来实现最终的收敛呢？我们之前在

>>阅读原文<<