Reinforcement Learning - An Introduction强化学习读书笔记 Ch5.8-Ch6.3

5.8 折扣敏感的重要度采样 之前的离线算法都需要为回报计算重要度采样的权重,它把回报视为单一整体,而不考虑回报是每个时刻的折后收益之和这一内部结构。 假设幕持续100步并且 γ = 0 \gamma=0 γ=0,那么0时刻的回报就会是 G 0 = R 1 G_0=R_1 G0​=R1​,但它的重要度采样却会是100个因子之积,也就是: 在普通重要度采样中会用整个乘积对回报进行缩放,但是实际上只需
相关文章
相关标签/搜索