机器学习（二十五）——强化学习（2）

时间 2021-01-10

原文原文链接

https://antkillerfarm.github.io/ 折扣未来奖励（Discounted Future Reward）为了获得更多的奖励，我们往往不能只看当前奖励，更要看将来的奖励。给定一个MDP周期，总的奖励显然为： R=r1+r2+⋯+rn R = r 1 + r 2 + ⋯ + r n 那么，从当前时间t开始，总的将来的奖励为： Rt=rt+rt+1+⋯+rn R t = r