揭秘深度强化学习-5 评估奖励之Q-learning算法

时间 2021-01-12

原文原文链接

看完觉得深受启发的一篇文章，根据自己的理解翻译过来留以后再次翻看原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ Q-learning算法在Q-learning算法中，我们定义一个函数Q(s,a) 来表示当我们在状态s采取行动a且之后都是最理想状态，我们预期未来能获得的衰减未来奖励 Q(s,a)可以视为s状态