Reinforcement Learning - An Introduction强化学习读书笔记 Ch5.8-Ch6.3

时间 2021-01-12

原文原文链接

5.8 折扣敏感的重要度采样之前的离线算法都需要为回报计算重要度采样的权重，它把回报视为单一整体，而不考虑回报是每个时刻的折后收益之和这一内部结构。假设幕持续100步并且 γ = 0 \gamma=0 γ=0，那么0时刻的回报就会是 G 0 = R 1 G_0=R_1 G0=R1，但它的重要度采样却会是100个因子之积，也就是：在普通重要度采样中会用整个乘积对回报进行缩放，但是实际上只需

>>阅读原文<<