强化学习之重要性采样

时间 2020-12-30

标签算法强化学习机器学习人工智能繁體版

原文原文链接

重要性用于离线蒙特卡洛的不足：（1）使用重要性采样时会用什么方法避免pi非零而mu为零的问题？一般使用一些平滑算法，例如拉普拉斯一类的平滑这里beta是平滑的超参数。还有一种就是clip，也就是ratio如果绝对值超过了某个阈值a，那就设置成这个a值（符号不变）。这些方法其实都是损失了一点点bias，来换来bias的巨大下降。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

>>阅读原文<<

强化学习 之重要性采样

强化学习之重要性采样