揭秘深度强化学习-5 评估奖励之Q-learning算法

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看 原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ Q-learning算法 在Q-learning算法中,我们定义一个函数Q(s,a) 来表示当我们在状态s采取行动a且之后都是最理想状态,我们预期未来能获得的衰减未来奖励 Q(s,a)可以视为s状态
相关文章
相关标签/搜索