强化学习——off-policy

Table of Contents p(x)/q(x)是一个权重 这个取样的过程就是与环境互动出现一个轨迹的过程 横坐标就是各种行为,红线是对应的reward,蓝线是原本的action的分布,也是与环境互动的取样分布 我们用绿线的采样,求蓝线的梯度,对蓝线的参数进行修改,importance samping 保证了绿线采样得到的是蓝线的梯度 分子分母差别过大会导致,效果不好 优化参数的同时,保持行
相关文章
相关标签/搜索