【强化学习笔记】4.3 无模型的强化学习方法-蒙特卡罗算法与重要性采样

时间 2021-01-13

标签强化学习繁體版

原文原文链接

异策略与重要性采样因为异策略中的行动策略和目标策略不一样，也就是说行动策略产生的数据分布与目标策略的数据分布存在偏差，即即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样，因此在使用数据进行目标策略评估的时候需要考虑该影响，常用的方法是重要性采样。(重要性采样的原理见文末图片) 重要性采样评估目标策略的值函数在目标策略下，一次实验的概率为： Pr(St,At,St+1,...ST)=∏T−

>>阅读原文<<