几句话总结一个算法之Policy Gradients

 

  • 强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,每每须要等这个回合结束才知道输赢学习

  • Policy Gradients(PG)计算某个状态下全部策略的分布几率,相似于经典分类问题给每一个类别预测一个几率,好的PG应该给优良的策略分配较高的几率
  • PG基于如下假定:spa

    • 若是只在游戏终结时才有奖励和惩罚,该回合赢了,这个回合的全部样本都是有""偏正的",反之则该回合全部样本都是“偏负的”游戏

    • 距离赢的那刻越近,贡献越大,越远贡献越小,通常采起指数衰减it

    • 若是在游戏每一个时刻都有奖励,那么当前行动贡献就是后面每一个时刻奖励的衰减累计之和
  • 贡献大小则体如今对模型参数的调整步长上,具体操做有两种,一种是直接在每一个样本的loss上乘以贡献大小,第二是先记下每一个样本对模型参数的梯度,再依次乘以贡献大小来调整,两种方法异曲同工class

  • PG是按照几率分布来随机选择动做的,其中已经包含了探索部分方法

相关文章
相关标签/搜索