强化学习之Q_lerning实现。

时间 2021-01-12

原文原文链接

强化学习之Q_lerning: Q-Learning算法学习 Q-Learning算法下，目标是达到目标状态(Goal State)并获取最高收益，一旦到达目标状态，最终收益保持不变。因此，目标状态又称之为吸收态。 Q-Learning算法下的agent，不知道整体的环境，知道当前状态下可以选择哪些动作。通常，我们需要构建一个即时奖励矩阵R，用于表示从状态s到下一个状态s’的动作奖励值。由即时

>>阅读原文<<