强化学习离轨策略:从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义

简介:我一个朋友小拍,姐妹众多,稳如老狗。姐妹们常疑惑:小拍同学 会吃会玩会聊天,上知美妆,下知韩综,中晓穿搭,做事靠谱,为人颇有原则 ,竟然没追成过一个女孩?要我说,这其实没什么可大惊小怪的,我刚认识小拍那阵子,他还是个钢铁小直男呢。 用强化学习的角度看,小拍在这几年做了很好的离轨策略(off-policy)学习,即从自己和别人“追女生”这个过程中学习经验,无论结果成败,都能有效地学到东西。 本
相关文章
相关标签/搜索