强化学习之奖励reward 4

时间 2019-12-07

标签强化学习奖励 reward 繁體版

原文原文链接

智能体的目标是最大化指望累计奖励咱们把在时间t的回报定义为Gt，在t时间的时候智能体会选择动做At来使指望Gt最大化。一般智能体没法彻底确定地预测将来的奖励怎么样，他必须依赖于预测和估算咱们能够给公式乘上折扣率，来表示对将来回报的关注度，当gama靠近0表示只关注与眼前的利益，当gamma靠近1表示对将来的回报和当前回报同样地注重。这在连续性任务中是十分重要滴，由于没有中止点，折扣率防止了智

>>阅读原文<<