强化学习——off-policy

时间 2021-01-13

原文原文链接

Table of Contents p(x)/q(x)是一个权重这个取样的过程就是与环境互动出现一个轨迹的过程横坐标就是各种行为，红线是对应的reward，蓝线是原本的action的分布，也是与环境互动的取样分布我们用绿线的采样，求蓝线的梯度，对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度分子分母差别过大会导致，效果不好优化参数的同时，保持行