机器学习(二十五)——强化学习(2)

https://antkillerfarm.github.io/ 折扣未来奖励(Discounted Future Reward) 为了获得更多的奖励,我们往往不能只看当前奖励,更要看将来的奖励。 给定一个MDP周期,总的奖励显然为: R=r1+r2+⋯+rn R = r 1 + r 2 + ⋯ + r n 那么,从当前时间t开始,总的将来的奖励为: Rt=rt+rt+1+⋯+rn R t = r
相关文章
相关标签/搜索