强化学习之Q_lerning实现。

强化学习之Q_lerning: Q-Learning算法学习 Q-Learning算法下,目标是达到目标状态(Goal State)并获取最高收益,一旦到达目标状态,最终收益保持不变。因此,目标状态又称之为吸收态。 Q-Learning算法下的agent,不知道整体的环境,知道当前状态下可以选择哪些动作。 通常,我们需要构建一个即时奖励矩阵R,用于表示从状态s到下一个状态s’的动作奖励值。 由即时
相关文章
相关标签/搜索