5. Sarsa(lambda)

Sarsa lambda λ \lambda λ 指的是选择更新的步数。 单步更新,只更新了获得宝藏的那一步的参数。 回合更新,更新了从出发到获得宝藏的所有步数的参数。 多了一个奖励衰减值,离宝藏越远衰减越多。 原视频: https://www.bilibili.com/video/av16921335?p=12
相关文章
相关标签/搜索