强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,每每须要等这个回合结束才知道输赢学习
PG基于如下假定:spa
若是只在游戏终结时才有奖励和惩罚,该回合赢了,这个回合的全部样本都是有""偏正的",反之则该回合全部样本都是“偏负的”游戏
距离赢的那刻越近,贡献越大,越远贡献越小,通常采起指数衰减it
贡献大小则体如今对模型参数的调整步长上,具体操做有两种,一种是直接在每一个样本的loss上乘以贡献大小,第二是先记下每一个样本对模型参数的梯度,再依次乘以贡献大小来调整,两种方法异曲同工class
PG是按照几率分布来随机选择动做的,其中已经包含了探索部分方法