《强化学习》 DP动态规划

时间 2021-08-15

原文原文链接

奖赏设计累计奖赏和折扣累计奖赏数学上看，折扣奖赏机制可以将累计回报转化为递推的形式： Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1 G t = R t + γ ( R t + 1 + γ R t + 2 + . . . ) = R t + γ G t + 1 折扣是一种固定效应模型奖赏设计：不要平移，奖励做什么而不是怎么做奖赏设计：缩放，塑形贝尔曼等式状态值函数值