强化学习在船舶中的应用（四）——三种方法

时间 2021-07-12

原文原文链接

强化学习的三种方法前面文章已经定义了有关强化学习的主要概念，下面继续讲解解决强化学习问题的三种方法。（一）基于价值在基于价值的智能体中，其目标是优化价值函数V（s）。价值函数是一个函数，它用来刻画智能体在每个状态下获得的最大预期未来奖励。每个状态的价值是从该状态开始，智能体在未来积累的奖励总和（期望）。智能体通过使用值函数，在每个步骤中对下一个状态进行选择。智能体获得具有最大期望价值的状态

>>阅读原文<<