强化学习 之重要性采样

重要性用于离线蒙特卡洛的不足: (1)使用重要性采样时会用什么方法避免pi非零而mu为零的问题? 一般使用一些平滑算法,例如拉普拉斯一类的平滑 这里beta是平滑的超参数。 还有一种就是clip,也就是ratio如果绝对值超过了某个阈值a,那就设置成这个a值(符号不变)。 这些方法其实都是损失了一点点bias,来换来bias的巨大下降。 。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
相关文章
相关标签/搜索