几句话总结一个算法之Policy Gradients

时间 2019-11-10

标签几句话总结一个算法 policy gradients 繁體版

原文原文链接

强化学习与监督学习的区别在于，监督学习的每条样本都有一个独立的label，而强化学习的奖励(label)是有延后性，每每须要等这个回合结束才知道输赢学习
Policy Gradients（PG）计算某个状态下全部策略的分布几率，相似于经典分类问题给每一个类别预测一个几率，好的PG应该给优良的策略分配较高的几率
PG基于如下假定：spa
- 若是只在游戏终结时才有奖励和惩罚，该回合赢了，这个回合的全部样本都是有""偏正的"，反之则该回合全部样本都是“偏负的”游戏
- 距离赢的那刻越近，贡献越大，越远贡献越小，通常采起指数衰减it
- 若是在游戏每一个时刻都有奖励，那么当前行动贡献就是后面每一个时刻奖励的衰减累计之和
贡献大小则体如今对模型参数的调整步长上，具体操做有两种，一种是直接在每一个样本的loss上乘以贡献大小，第二是先记下每一个样本对模型参数的梯度，再依次乘以贡献大小来调整，两种方法异曲同工class
PG是按照几率分布来随机选择动做的，其中已经包含了探索部分方法