强化学习之奖励reward 4

智能体的目标是最大化指望累计奖励 咱们把在时间t的回报定义为Gt,在t时间的时候智能体会选择动做At来使指望Gt最大化。一般智能体没法彻底确定地预测将来的奖励怎么样,他必须依赖于预测和估算 咱们能够给公式乘上折扣率,来表示对将来回报的关注度,当gama靠近0表示只关注与眼前的利益,当gamma靠近1表示 对将来的回报和当前回报同样地注重。这在连续性任务中是十分重要滴,由于没有中止点,折扣率防止了智
相关文章
相关标签/搜索