【强化学习】Q-Learning算法详解

【强化学习】Q-Learning详解 一、算法思想 QLearning是强化学习算法中值迭代的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采起 a (a∈A)动做可以得到收益的指望,环境会根据agent的动做反馈相应的回报reward r,因此算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,而后根据Q值来选取动做得到较大的收益。html 二、公式
相关文章
相关标签/搜索